reinforcement learning
[강화학습] DDPG(Deep Deterministic Policy Gradient)
DQN의 차원의 저주 문제(고차원 action을 다루는 경우 연산 속도가 느려지고 memory space를 많이 요함)를 off-policy actor critic 방식으로 풀어낸다. 기존 DQN 방식의 insight들에 batch normalization replay buffer target Q network Actor-critic 파라미터화 된 actor function을 가짐 actor function : state에서 특정 action으로 mapping하여 현재 policy를 지정 policy gradient 방식으로 학습 여기에서 J가 Objective Function(목표함수) actor function이 목표 함수를 gradient asent로 최대화→ 이 때의 policy parameter..
[강화학습] gym으로 강화학습 custom 환경 생성부터 Dueling DDQN 학습까지
인터넷을 다 뒤져봤는데 강화학습을 gym에서 제공하는 게임 agent 사용해서 하는 예제는 육천만 개고 커스텀해서 학습을 하는 예제는 단 한 개 있었다. 이제 막 공부를 시작하는 사람들에게 도움이 되었으면 하는 마음으로 간단하게 써보고자 한다. 1. Gym의 Env 구조 살펴보기 꼭 그래야하는 것은 아니지만(밑바닥부터 구현하는 방법도 있긴 하다) 어쨌든 gym 라이브러리의 environment 구조를 기반으로 해서 구현해볼 것이다. !pip install gym gym 라이브러리의 env 구조는 대충 아래와 같다. site-packages/gym/core.py 에서 직접 볼 수 있다. class Env(Generic[ObsType, ActType]):m.Generator] = None """ The ma..
[강화학습] DQN(Deep Q-Network)
[Model Review] Markov Decision Process & Q-Learning 1. 마르코프 결정 프로세스(MDP) 바닥부터 배우는 강화학습 - 마르코프 결정 프로세스(Markov Decision Process) 마르코프 프로세스(Markov Process) 상태 S와 전이확률행렬 P로 정의됨 하나의 상태에서 다른 dnai-deny.tistory.com Deep Reinforcement Learning 기존 Q Learning에서는 State와 Action에 해당하는 Q-Value를 테이블 형식으로 저장 state space와 action space가 커지면 Q-Value를 저장하기 위해 memory와 exploration time이 증가하는 문제 ⇒ 딥러닝으로 Q-Table을 생성하는 Q..