지금까지 value function을 lookup table로 표현했다.
large MDPs의 문제는 많은 스테이트를 메모리에 담을 수 없고, 속도가 너무 느릴 것 이다.
Solution for large MDPs
differentiable
Decision tree
Nearest neighbor
Fourier / wavelet bases
더해서 non-stationary, non-iid data가 필요하다.