728x90
DQN의 차원의 저주 문제(고차원 action을 다루는 경우 연산 속도가 느려지고 memory space를 많이 요함)를 off-policy actor critic 방식으로 풀어낸다.
- 기존 DQN 방식의 insight들에 batch normalization
- replay buffer
- target Q network
Actor-critic
- 파라미터화 된 actor function을 가짐
- actor function : state에서 특정 action으로 mapping하여 현재 policy를 지정
- policy gradient 방식으로 학습
- 여기에서 J가 Objective Function(목표함수)
- actor function이 목표 함수를 gradient asent로 최대화→ 이 때의 policy parameter를 찾는 것이 학습 목적
- critic function(Q(s, a)) : state와 action의 가치판정
- Q-Learning과 같이 벨만 방정식을 사용해서 학습
Objective Function
- 일정 기간 동안 받을 것으로 예상되는 보상의 합
Relay buffer
- DQN과 동일
Soft Target Update
- DQN에서 NN 기반의 Q-Learning의 학습 불안정성을 Target Function을 따로 두어서 느리게 업데이트 되도록 해서 해결
- DDPG에서는 파라미터를 사용해서 업데이트 속도도 조절
Batch Normalization
- 학습 시 데이터 구성요소가 각각 다른 단위를 가질 수 있고 이것으로 인한 학습 어려움의 문제 존재
- 이를 batch normalization으로 해결
- input(state), actor, critic 모든 layer에 적용
Noise
- exploration(탐험) → agent가 지속적으로 새로운 시도를 하는 것
- off-policy 알고리즘에서는 독립적으로 학습 알고리즘과 탐험을 구분 가능
- exploration policy를 actor policy에 noise를 추가해서 만듬.
728x90
'🐬 ML & Data > 📮 Reinforcement Learning' 카테고리의 다른 글
[MPC] 1. Model Predictive Control Intro (0) | 2024.03.06 |
---|---|
[강화학습] Dealing with Sparse Reward Environments - 희박한 보상 환경에서 학습하기 (2) | 2023.10.23 |
[강화학습] Dueling Double Deep Q Learning(DDDQN / Dueling DQN / D3QN) (0) | 2023.10.06 |
[강화학습] gym으로 강화학습 custom 환경 생성부터 Dueling DDQN 학습까지 (0) | 2023.08.16 |
[강화학습] DQN(Deep Q-Network) (0) | 2023.08.01 |