공부 정리 블로그

Tempora Differnence Learning(1/2) 본문

카테고리 없음

Tempora Differnence Learning(1/2)

따옹 2022. 10. 22. 14:11

지금까지의 이야기

 

Dynaminc Programing : model based 

Monte-Carlo 여러번 시도해서 평균내기

 

return까지 기다리기 싫음

TD는 

Bootstraping imm, 다음 가치를 통해 계산하겠다

속도가 빠르다

실제값을 사용할 때와 추정값을 사용할 때

TD error : r+rV(s') 추구하는 값 - 현재 값

policy와 random으로 아무 숫자나 쓴 policy
V(1,1) =0.9 -> 0.87

 

바보가 바보 따라가는 느낌이긴 한데...

하지만 결국은 제대로된 실제값으로 갈 것이다.

 

model based vs TD 

model based 와의 차이는 trasition prob가 나오기 때문에 계산이됨

TD의 경우, ep를 전체를 가보지 않는 이상 최적의 policy로 가는지 모름

한 스텝을 갈 때마다 V값 업데이트

 

predition policy는 정해져있음 이것을 가지고 V,Q값 state , state action pair를 구하는 것

control은 그걸 토대로 policy를 바꾸는 것

 

prediction

episode를 많이 돌릴 때, 주어진 policy에 대해 돌릴 때마다 각 step을 갈때 모든 ep에 대해서 가기 전 state의 value를 update시켜줌

그러다 보면 V값이 어디로 결론남 이것이 우리가 추정한 가치라고 여김