4월 8일(월) 랩실 레지던트 시작
강화학습의 사용 사례
→ 알파고로 유명해짐
이후 주식 트레이딩 봇 개발 및 구글 딥마인드 눈 스캔 분석으로 질병 진단을 도움
강화학습이란
보상 체계를 활용해 에이전트가 긍정적 행동을 할 수 있도록 에이전트의 행동을 제어하는 정책을 찾아내는 최적화 기법
에이전트는 ‘정책’에 따라 주어진 ‘환경’에서 ‘행동’을 한다.
위 행동에 따라 환경의 ‘상태’가 바뀌고, 결과에 따라 ‘보상’을 얻는다.
강화학습은 위 보상이 최대가 될 수 있게 하는 ‘정책’을 찾는 것
가장 좋은 정책을 찾는 것이 목적 → 누적 보상의 합을 최대로 함
정형/비정형의 많은 데이터를 다루는 머신러닝/딥러닝과 달리
데이터를 스스로 만들어냄 → 데이터량 부담 감소
확률과정
시간 흐름에 따라 확률적(무작위적)으로 움직이는 상태, {Xt}
{Xt} = X(랜덤 변수), {}(집합), t(시간)
시간의 흐름에 따라 발생하는 랜덤 변수의 집합
'🎸 기타 > Reinforcement Learning' 카테고리의 다른 글
[RL] MDP를 모를 때 밸류 평가하기 (1) | 2024.06.02 |
---|---|
[RL] MDP를 알 때 플래닝 (0) | 2024.05.23 |
[RL] 벨만 방정식 (0) | 2024.05.20 |
[RL] 마르코프 보상 과정 (MRP) | 마르코프 결정 과정 (MDP) (0) | 2024.04.30 |
[RL] 마르코프 속성/연쇄 (1) | 2024.04.29 |