DQN
[강화학습] Dueling Double Deep Q Learning(DDDQN / Dueling DQN / D3QN)
Dueling Double DQN https://arxiv.org/pdf/1509.06461.pdf https://arxiv.org/pdf/1511.06581.pdf Double DQN DQN에서 reward를 과대 평가하는 문제가 있음. Q Value가 agent가 실제보다 높은 리턴을 받을 것이라고 생각하는 경향 ⇒ Q learning update 방정식에 다음 상태(state)에 대한 Q value 최대값이 존재하기 때문 Q 값에 대한 max 연산은 편향을 최대화한다. 환경의 최대 true value가 0인데 agent가 추정하는 최대 true value가 양수인 경우에 성능 저하 해결을 위해 두 개의 network 사용. Q Next : action selection → 다음 액션으로 가장 좋은 ..
[Paper Review] Transforming Cooling Optimization for Green Data Center via Deep Reinforcement Learning
* 개인적으로 읽고 가볍게 정리해보는 용도로 작성한 글이라 미숙하고 정확하지 않습니다. 양해 부탁드립니다 :D Transforming Cooling Optimization for Green Data Center via Deep Reinforcement Learning Cooling system plays a critical role in a modern data center (DC). Developing an optimal control policy for DC cooling system is a challenging task. The prevailing approaches often rely on approximating system models that are built upon the knowled..
[강화학습] DQN(Deep Q-Network)
[Model Review] Markov Decision Process & Q-Learning 1. 마르코프 결정 프로세스(MDP) 바닥부터 배우는 강화학습 - 마르코프 결정 프로세스(Markov Decision Process) 마르코프 프로세스(Markov Process) 상태 S와 전이확률행렬 P로 정의됨 하나의 상태에서 다른 dnai-deny.tistory.com Deep Reinforcement Learning 기존 Q Learning에서는 State와 Action에 해당하는 Q-Value를 테이블 형식으로 저장 state space와 action space가 커지면 Q-Value를 저장하기 위해 memory와 exploration time이 증가하는 문제 ⇒ 딥러닝으로 Q-Table을 생성하는 Q..