인공지능
인간의 지능을 컴퓨터로 구현
머신 러닝
트레이닝 데이터가 미리 주어져 있지 않다.
Agent가 실제 환경에서 상호작용하면서 학습을 한다.
Agent가 환경에서 자신의 상태를 인식하는 것을 State라고 한다.
인식하고 나서 어떤 행동을 취하게 되는데 그것을 Action이라고 한다.
행동을 취할때 어떤 조건하에 행동을 취하는데 그것을 Policy라고 한다
그 행동의 보상으로 Reward를 얻게 되고 그 Reward를 누적합 하여 Total Reward를 Maximize하는 방향으로 학습한다.
Policy Evaluation
Policy Improvement
시간이 정말 중요하고, 일부 보상은 지연될 수 있다.
딥러닝
Deep Reinforcement Learning
Big data, powerful computation, new DL algorithms
DRL로 인해서 game, robotics, finance, autonomous cars가 발전하게 되는 계기가 됨.
State spaces가 매우 중요함, state variables에 비해 exponentially하게 커진다. ( 차원의 저주 )
DL이 높은 차원의 데이터를 낮은 차원의 데이터로 바꿔준다. (images, text and audio)