마르코프 결정과정 (Markov Decision Process, MDP)
개요에이전트는 상황이 변하는 것을 고려하여 최선의 수를 두어야 함.Agent의 상황 = State (현재 상태)눈 앞의 보상이 아니라 미래에 얻을 수 있는 보상의 총 합을 고려해야 함. (보상의 총합을 극대화)상태 $s_t$에서 행동 $a_t$를 취했을 때 얻을 수 있는 보상 $r_{t+1}$, 다음 상태 $s_{t+1}$ 마르코프 성질현재의 정보만 고려하는 성질 (어떤 상태들을 거쳐왔고, 어떤 행동들을 취해왔는지는 신경쓰지 않음.)MDP는 마르코프 성질을 만족한다고 가정하고 상태전이와 보상을 모델링 PolicyAgent가 행동을 결정하는 방식환경에 대해 필요한 정보는 모두 현재 상태에 있음. (MDP)결정적 정책 $\mu(s) = a$확률적 정책 $\pi(a|s)$ Agent는 정책에 따라 행동하며, ..