🐬 ML & Data/📮 Reinforcement Learning

[강화학습] DDPG(Deep Deterministic Policy Gradient)

darly213 2023. 10. 16. 14:04
728x90

DQN의 차원의 저주 문제(고차원 action을 다루는 경우 연산 속도가 느려지고 memory space를 많이 요함)를 off-policy actor critic 방식으로 풀어낸다.

  • 기존 DQN 방식의 insight들에 batch normalization
    • replay buffer
    • target Q network

 

Actor-critic

  • 파라미터화 된 actor function을 가짐

  • actor function : state에서 특정 action으로 mapping하여 현재 policy를 지정
    • policy gradient 방식으로 학습

  • 여기에서 J가 Objective Function(목표함수)
  • actor function이 목표 함수를 gradient asent로 최대화→ 이 때의 policy parameter를 찾는 것이 학습 목적
  • critic function(Q(s, a)) : state와 action의 가치판정
    • Q-Learning과 같이 벨만 방정식을 사용해서 학습

 

Objective Function

  • 일정 기간 동안 받을 것으로 예상되는 보상의 합

 

Relay buffer

  • DQN과 동일

 

Soft Target Update

  • DQN에서 NN 기반의 Q-Learning의 학습 불안정성을 Target Function을 따로 두어서 느리게 업데이트 되도록 해서 해결
  • DDPG에서는 파라미터를 사용해서 업데이트 속도도 조절

Batch Normalization

  • 학습 시 데이터 구성요소가 각각 다른 단위를 가질 수 있고 이것으로 인한 학습 어려움의 문제 존재
  • 이를 batch normalization으로 해결
  • input(state), actor, critic 모든 layer에 적용

 

Noise

  • exploration(탐험) → agent가 지속적으로 새로운 시도를 하는 것
  • off-policy 알고리즘에서는 독립적으로 학습 알고리즘과 탐험을 구분 가능
  • exploration policy를 actor policy에 noise를 추가해서 만듬.
728x90