[강화학습] DDPG(Deep Deterministic Policy Gradient)

2023. 10. 16. 14:04·🐬 ML & Data/📮 Reinforcement Learning
목차
  1. Actor-critic
  2. Objective Function
  3. Relay buffer
  4. Soft Target Update
  5. Batch Normalization
  6. Noise
728x90

DQN의 차원의 저주 문제(고차원 action을 다루는 경우 연산 속도가 느려지고 memory space를 많이 요함)를 off-policy actor critic 방식으로 풀어낸다.

  • 기존 DQN 방식의 insight들에 batch normalization
    • replay buffer
    • target Q network

 

Actor-critic

  • 파라미터화 된 actor function을 가짐

  • actor function : state에서 특정 action으로 mapping하여 현재 policy를 지정
    • policy gradient 방식으로 학습

  • 여기에서 J가 Objective Function(목표함수)
  • actor function이 목표 함수를 gradient asent로 최대화→ 이 때의 policy parameter를 찾는 것이 학습 목적
  • critic function(Q(s, a)) : state와 action의 가치판정
    • Q-Learning과 같이 벨만 방정식을 사용해서 학습

 

Objective Function

  • 일정 기간 동안 받을 것으로 예상되는 보상의 합

 

Relay buffer

  • DQN과 동일

 

Soft Target Update

  • DQN에서 NN 기반의 Q-Learning의 학습 불안정성을 Target Function을 따로 두어서 느리게 업데이트 되도록 해서 해결
  • DDPG에서는 파라미터를 사용해서 업데이트 속도도 조절

Batch Normalization

  • 학습 시 데이터 구성요소가 각각 다른 단위를 가질 수 있고 이것으로 인한 학습 어려움의 문제 존재
  • 이를 batch normalization으로 해결
  • input(state), actor, critic 모든 layer에 적용

 

Noise

  • exploration(탐험) → agent가 지속적으로 새로운 시도를 하는 것
  • off-policy 알고리즘에서는 독립적으로 학습 알고리즘과 탐험을 구분 가능
  • exploration policy를 actor policy에 noise를 추가해서 만듬.
728x90
저작자표시 비영리 변경금지 (새창열림)

'🐬 ML & Data > 📮 Reinforcement Learning' 카테고리의 다른 글

[MPC] 1. Model Predictive Control Intro  (0) 2024.03.06
[강화학습] Dealing with Sparse Reward Environments - 희박한 보상 환경에서 학습하기  (2) 2023.10.23
[강화학습] Dueling Double Deep Q Learning(DDDQN / Dueling DQN / D3QN)  (0) 2023.10.06
[강화학습] gym으로 강화학습 custom 환경 생성부터 Dueling DDQN 학습까지  (0) 2023.08.16
[강화학습] DQN(Deep Q-Network)  (0) 2023.08.01
  1. Actor-critic
  2. Objective Function
  3. Relay buffer
  4. Soft Target Update
  5. Batch Normalization
  6. Noise
'🐬 ML & Data/📮 Reinforcement Learning' 카테고리의 다른 글
  • [MPC] 1. Model Predictive Control Intro
  • [강화학습] Dealing with Sparse Reward Environments - 희박한 보상 환경에서 학습하기
  • [강화학습] Dueling Double Deep Q Learning(DDDQN / Dueling DQN / D3QN)
  • [강화학습] gym으로 강화학습 custom 환경 생성부터 Dueling DDQN 학습까지
darly213
darly213
호락호락하지 않은 개발자가 되어보자
  • darly213
    ERROR DENY
    darly213
  • 전체
    오늘
    어제
    • 분류 전체보기 (97)
      • 🐬 ML & Data (50)
        • 🌊 Computer Vision (2)
        • 📮 Reinforcement Learning (12)
        • 📘 논문 & 모델 리뷰 (8)
        • 🦄 라이트 딥러닝 (3)
        • ❔ Q & etc. (5)
        • 🎫 라이트 머신러닝 (20)
      • 🐥 Web (21)
        • ⚡ Back-end | FastAPI (2)
        • ⛅ Back-end | Spring (5)
        • ❔ Back-end | etc. (9)
        • 🎨 Front-end (4)
      • 🎼 Project (8)
        • 🧊 Monitoring System (8)
      • 🐈 Algorithm (0)
      • 🔮 CS (2)
      • 🐳 Docker & Kubernetes (3)
      • 🌈 DEEEEEBUG (2)
      • 🌠 etc. (8)
      • 😼 사담 (1)
  • 블로그 메뉴

    • 홈
    • 방명록
    • GitHub
    • Notion
    • LinkedIn
  • 링크

    • Github
    • Notion
  • 공지사항

    • Contact ME!
  • 250x250
  • hELLO· Designed By정상우.v4.10.3
darly213
[강화학습] DDPG(Deep Deterministic Policy Gradient)

개인정보

  • 티스토리 홈
  • 포럼
  • 로그인
상단으로

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.