[강화학습] DDPG(Deep Deterministic Policy Gradient)

2023. 10. 16. 14:04·🐬 ML & Data/📮 Reinforcement Learning
728x90

DQN의 차원의 저주 문제(고차원 action을 다루는 경우 연산 속도가 느려지고 memory space를 많이 요함)를 off-policy actor critic 방식으로 풀어낸다.

  • 기존 DQN 방식의 insight들에 batch normalization
    • replay buffer
    • target Q network

 

Actor-critic

  • 파라미터화 된 actor function을 가짐

  • actor function : state에서 특정 action으로 mapping하여 현재 policy를 지정
    • policy gradient 방식으로 학습

  • 여기에서 J가 Objective Function(목표함수)
  • actor function이 목표 함수를 gradient asent로 최대화→ 이 때의 policy parameter를 찾는 것이 학습 목적
  • critic function(Q(s, a)) : state와 action의 가치판정
    • Q-Learning과 같이 벨만 방정식을 사용해서 학습

 

Objective Function

  • 일정 기간 동안 받을 것으로 예상되는 보상의 합

 

Relay buffer

  • DQN과 동일

 

Soft Target Update

  • DQN에서 NN 기반의 Q-Learning의 학습 불안정성을 Target Function을 따로 두어서 느리게 업데이트 되도록 해서 해결
  • DDPG에서는 파라미터를 사용해서 업데이트 속도도 조절

Batch Normalization

  • 학습 시 데이터 구성요소가 각각 다른 단위를 가질 수 있고 이것으로 인한 학습 어려움의 문제 존재
  • 이를 batch normalization으로 해결
  • input(state), actor, critic 모든 layer에 적용

 

Noise

  • exploration(탐험) → agent가 지속적으로 새로운 시도를 하는 것
  • off-policy 알고리즘에서는 독립적으로 학습 알고리즘과 탐험을 구분 가능
  • exploration policy를 actor policy에 noise를 추가해서 만듬.
728x90
저작자표시 비영리 변경금지 (새창열림)

'🐬 ML & Data > 📮 Reinforcement Learning' 카테고리의 다른 글

[MPC] 1. Model Predictive Control Intro  (0) 2024.03.06
[강화학습] Dealing with Sparse Reward Environments - 희박한 보상 환경에서 학습하기  (2) 2023.10.23
[강화학습] Dueling Double Deep Q Learning(DDDQN / Dueling DQN / D3QN)  (0) 2023.10.06
[강화학습] gym으로 강화학습 custom 환경 생성부터 Dueling DDQN 학습까지  (0) 2023.08.16
[강화학습] DQN(Deep Q-Network)  (0) 2023.08.01
'🐬 ML & Data/📮 Reinforcement Learning' 카테고리의 다른 글
  • [MPC] 1. Model Predictive Control Intro
  • [강화학습] Dealing with Sparse Reward Environments - 희박한 보상 환경에서 학습하기
  • [강화학습] Dueling Double Deep Q Learning(DDDQN / Dueling DQN / D3QN)
  • [강화학습] gym으로 강화학습 custom 환경 생성부터 Dueling DDQN 학습까지
darly213
darly213
호락호락하지 않은 개발자가 되어보자
  • darly213
    ERROR DENY
    darly213
  • 전체
    오늘
    어제
    • 분류 전체보기 (97)
      • 🐬 ML & Data (50)
        • 🌊 Computer Vision (2)
        • 📮 Reinforcement Learning (12)
        • 📘 논문 & 모델 리뷰 (8)
        • 🦄 라이트 딥러닝 (3)
        • ❔ Q & etc. (5)
        • 🎫 라이트 머신러닝 (20)
      • 🐥 Web (21)
        • ⚡ Back-end | FastAPI (2)
        • ⛅ Back-end | Spring (5)
        • ❔ Back-end | etc. (9)
        • 🎨 Front-end (4)
      • 🎼 Project (8)
        • 🧊 Monitoring System (8)
      • 🐈 Algorithm (0)
      • 🔮 CS (2)
      • 🐳 Docker & Kubernetes (3)
      • 🌈 DEEEEEBUG (2)
      • 🌠 etc. (8)
      • 😼 사담 (1)
  • 블로그 메뉴

    • 홈
    • 방명록
    • GitHub
    • Notion
    • LinkedIn
  • 링크

    • Github
    • Notion
  • 공지사항

    • Contact ME!
  • 250x250
  • hELLO· Designed By정상우.v4.10.3
darly213
[강화학습] DDPG(Deep Deterministic Policy Gradient)
상단으로

티스토리툴바