MDP를 모를 때 최적의 정책찾기몬테카를로 컨트롤정책 이터레이션을 그대로 사용할 수 없는 이유정책 이터레이션 리뷰 정책 이터레이션은 정책 평가와 정책 개선 두 단계로 구성 정책 평가: 고정된 정책 𝜋에 대해 각 상태의 가치를 구함 = 반복적 정책 평가 = 밸류 평가 정책 개선: 정책 평가의 결과에 따라 새로운 정책 𝜋'를 생성 = 그리디 정책 생성 반복적 정책 평가와 정책 개선을 진행하면 정책과 가치가 변하지 않는 단계에 도달하게 됨 -> 최적 정책과 최적 가치반복적인 정책 평가를 사용할 수 없음모델 프리 상황에서는 보상함수 r과 전이확률 P를 모르기 때문에위 벨만 기대 방정식 2단계를 사용할 수 없음 정책 개선 단계에서 그리디 정책을 만들 수 없음 지난 주를 통해 각 상태의 가치를 알..