
[RL] 마르코프 보상 과정 (MRP) | 마르코프 결정 과정 (MDP)
·
🎸 기타/Reinforcement Learning
마르코프 보상 과정 (MRP)*(마르코프 연쇄)에 ‘보상’과 ‘시간에 따른 보상의 감가율’의 개념이 추가된 것마르코프 속성을 지닌 시스템의 시간에 따른 상태 변화상태 집합(S)와 상태 전이 매트릭스(P)로 구성상태에 전이확률만 주어졌지, 상태 변화가 얼마나 가치가 있는지 모름MRP은 상태 집합(S), 상태 전이 매트릭스(P), 보상함수(R) 그리고 감가율(r)상태 변화에 대한 가치를 계산할 수 있음S(상태 집합): 다루고 있는 ‘환경’이 가질 수 있는 다양한 상태MRP에서 상태는 유한해야 함 (개수가 정해짐)*환경: 우리가 다루는 시스템 또는 문제로,백화점 매출 예측은 ‘고객정보, 매출정보, 재무정보, ..’등이 환경에 해당P(상태전이 매트릭스): 각각의 상태가 다른 상태로 변할 수..