4월 8일(월) 랩실 레지던트 시작강화학습의 사용 사례→ 알파고로 유명해짐이후 주식 트레이딩 봇 개발 및 구글 딥마인드 눈 스캔 분석으로 질병 진단을 도움강화학습이란보상 체계를 활용해 에이전트가 긍정적 행동을 할 수 있도록 에이전트의 행동을 제어하는 정책을 찾아내는 최적화 기법에이전트는 ‘정책’에 따라 주어진 ‘환경’에서 ‘행동’을 한다.위 행동에 따라 환경의 ‘상태’가 바뀌고, 결과에 따라 ‘보상’을 얻는다.강화학습은 위 보상이 최대가 될 수 있게 하는 ‘정책’을 찾는 것가장 좋은 정책을 찾는 것이 목적 → 누적 보상의 합을 최대로 함정형/비정형의 많은 데이터를 다루는 머신러닝/딥러닝과 달리데이터를 스스로 만들어냄 → 데이터량 부담 감소확률과정시간 흐름에 따라 확률적(무작위적)으로 움직이는 상태, {X..