Double DQN

    [강화학습] Dueling Double Deep Q Learning(DDDQN / Dueling DQN / D3QN)

    Dueling Double DQN https://arxiv.org/pdf/1509.06461.pdf https://arxiv.org/pdf/1511.06581.pdf Double DQN DQN에서 reward를 과대 평가하는 문제가 있음. Q Value가 agent가 실제보다 높은 리턴을 받을 것이라고 생각하는 경향 ⇒ Q learning update 방정식에 다음 상태(state)에 대한 Q value 최대값이 존재하기 때문 Q 값에 대한 max 연산은 편향을 최대화한다. 환경의 최대 true value가 0인데 agent가 추정하는 최대 true value가 양수인 경우에 성능 저하 해결을 위해 두 개의 network 사용. Q Next : action selection → 다음 액션으로 가장 좋은 ..