Tempora Differnence Learning(1/2)

Notice

Recent Posts

Tags more

Archives

관리 메뉴

공부 정리 블로그

카테고리 없음

따옹 2022. 10. 22. 14:11

지금까지의 이야기

Dynaminc Programing : model based

Monte-Carlo 여러번 시도해서 평균내기

return까지 기다리기 싫음

TD는

Bootstraping imm, 다음 가치를 통해 계산하겠다

속도가 빠르다

TD error : r+rV(s') 추구하는 값 - 현재 값

바보가 바보 따라가는 느낌이긴 한데...

하지만 결국은 제대로된 실제값으로 갈 것이다.

model based vs TD

model based 와의 차이는 trasition prob가 나오기 때문에 계산이됨

TD의 경우, ep를 전체를 가보지 않는 이상 최적의 policy로 가는지 모름

한 스텝을 갈 때마다 V값 업데이트

predition policy는 정해져있음 이것을 가지고 V,Q값 state , state action pair를 구하는 것

control은 그걸 토대로 policy를 바꾸는 것

prediction

episode를 많이 돌릴 때, 주어진 policy에 대해 돌릴 때마다 각 step을 갈때 모든 ep에 대해서 가기 전 state의 value를 update시켜줌

그러다 보면 V값이 어디로 결론남 이것이 우리가 추정한 가치라고 여김