Introduction to Reinforcement Learning
기계학습 (제일 큰 원)
- Supervised Learning
- Unsupervised Learning
- Reinforcement Learning
머신러닝 패러다임과 강화학습이 뭐가 다른지
- Supervisor가 없고, Rewards 만이 신호로 존재한다.
- 피드백(reward) 이 즉각적이지 않다 ( 늦어질 수 있다 ).
- 시간 차이로 인한?
- 시간이 너무 중요하다. iid - 각 샘플이 독립적이지 않다. ( Sequential )
- 에이전트의 액션이 차후의 받게되는 데이터에 영향을 준다.
- 어떤 데이터를 어떻게 받는지도 학습과정에서 매우 중요하다.
Example
- 백가몬 boardgame에서 world champion을 이기는일
- 투자 포트폴리오를 관리. ( earnings maximize )
- make humanoid robot walk…
Rewards