마르코프 결정 프로세스

    [강화학습] Markov Decision Process & Q-Learning

    1. 마르코프 결정 프로세스(MDP) 바닥부터 배우는 강화학습 - 마르코프 결정 프로세스(Markov Decision Process) 마르코프 프로세스(Markov Process) 상태 S와 전이확률행렬 P로 정의됨 하나의 상태에서 다른 상태로 전이가 일어남 상태 전이에 각각 확률 존재 S4의 경우 종료상태 마르코프 성질(Markov property) $$ P[S_{t+1} | S_t] = P[S_{t+1} |S_1,S_2, ... S_t] $$ 상태가 되기까지의 과정은 확률 계산에 영향을 주지 않음. 어느 시점의 상태로 다음 상태를 결정할 수 있을 때 마르코프한 상태라고 함.반례) 운전하는 사진(어느 시점의 사진으로는 후진/전진/속도 등을 파악 불가 → 다음 상태 결정 불가능) ex) 체스 게임(어느 ..