[강화학습] DDPG(Deep Deterministic Policy Gradient) — ERROR DENY

728x90

DQN의 차원의 저주 문제(고차원 action을 다루는 경우 연산 속도가 느려지고 memory space를 많이 요함)를 off-policy actor critic 방식으로 풀어낸다.

기존 DQN 방식의 insight들에 batch normalization
- replay buffer
- target Q network

Actor-critic

파라미터화 된 actor function을 가짐

actor function : state에서 특정 action으로 mapping하여 현재 policy를 지정
- policy gradient 방식으로 학습

여기에서 J가 Objective Function(목표함수)
actor function이 목표 함수를 gradient asent로 최대화→ 이 때의 policy parameter를 찾는 것이 학습 목적

critic function(Q(s, a)) : state와 action의 가치판정
- Q-Learning과 같이 벨만 방정식을 사용해서 학습

Objective Function

일정 기간 동안 받을 것으로 예상되는 보상의 합

Relay buffer

DQN과 동일

Soft Target Update

DQN에서 NN 기반의 Q-Learning의 학습 불안정성을 Target Function을 따로 두어서 느리게 업데이트 되도록 해서 해결
DDPG에서는 파라미터를 사용해서 업데이트 속도도 조절

Batch Normalization

학습 시 데이터 구성요소가 각각 다른 단위를 가질 수 있고 이것으로 인한 학습 어려움의 문제 존재
이를 batch normalization으로 해결
input(state), actor, critic 모든 layer에 적용

Noise

exploration(탐험) → agent가 지속적으로 새로운 시도를 하는 것
off-policy 알고리즘에서는 독립적으로 학습 알고리즘과 탐험을 구분 가능
exploration policy를 actor policy에 noise를 추가해서 만듬.

728x90

저작자표시 비영리 변경금지 (새창열림)

'🐬 ML & Data > 📮 Reinforcement Learning' 카테고리의 다른 글

[MPC] 1. Model Predictive Control Intro (0)	2024.03.06
[강화학습] Dealing with Sparse Reward Environments - 희박한 보상 환경에서 학습하기 (2)	2023.10.23
[강화학습] Dueling Double Deep Q Learning(DDDQN / Dueling DQN / D3QN) (0)	2023.10.06
[강화학습] gym으로 강화학습 custom 환경 생성부터 Dueling DDQN 학습까지 (0)	2023.08.16
[강화학습] DQN(Deep Q-Network) (0)	2023.08.01

티스토리툴바