Q learning

    [강화학습] DQN(Deep Q-Network)

    [Model Review] Markov Decision Process & Q-Learning 1. 마르코프 결정 프로세스(MDP) 바닥부터 배우는 강화학습 - 마르코프 결정 프로세스(Markov Decision Process) 마르코프 프로세스(Markov Process) 상태 S와 전이확률행렬 P로 정의됨 하나의 상태에서 다른 dnai-deny.tistory.com Deep Reinforcement Learning 기존 Q Learning에서는 State와 Action에 해당하는 Q-Value를 테이블 형식으로 저장 state space와 action space가 커지면 Q-Value를 저장하기 위해 memory와 exploration time이 증가하는 문제 ⇒ 딥러닝으로 Q-Table을 생성하는 Q..