[RL] 강화학습이란

4월 8일(월) 랩실 레지던트 시작

→ 알파고로 유명해짐

이후 주식 트레이딩 봇 개발 및 구글 딥마인드 눈 스캔 분석으로 질병 진단을 도움

보상 체계를 활용해 에이전트가 긍정적 행동을 할 수 있도록 에이전트의 행동을 제어하는 정책을 찾아내는 최적화 기법

에이전트는 ‘정책’에 따라 주어진 ‘환경’에서 ‘행동’을 한다.

위 행동에 따라 환경의 ‘상태’가 바뀌고, 결과에 따라 ‘보상’을 얻는다.

강화학습은 위 보상이 최대가 될 수 있게 하는 ‘정책’을 찾는 것

가장 좋은 정책을 찾는 것이 목적 → 누적 보상의 합을 최대로 함

정형/비정형의 많은 데이터를 다루는 머신러닝/딥러닝과 달리

데이터를 스스로 만들어냄 → 데이터량 부담 감소

시간 흐름에 따라 확률적(무작위적)으로 움직이는 상태, {Xt}

{Xt} = X(랜덤 변수), {}(집합), t(시간)

시간의 흐름에 따라 발생하는 랜덤 변수의 집합

티스토리툴바