공부 정리 블로그
7. Monte Carlo(2/3) - incremental mean~on policy 본문
model free - 자율주행차/공장차
model based - 게임/ 모델링된 환경
Arithmetic mean
Incremental mean
total return 100, 200, 300, 400, 500일 때, V(s)?
Arithmetic mean : (100+200+300+400+500)/5 = 300
Incremental mean: (100+(200-100)/2, 150+(300-150)/3, ….)
alpha = 1/n(t)일 때는 Arithmetic mean, Incremental mean동일
alpha = 0.3(특정 상수로 주어졌을 때) weighted average
v(s) = v(s) + 0.3 R(t) - 0.3V(s)
= 0.7v(s) + 0.3 R(t) #weighted average
V 값 state 값 / Q값 action, state 값
모든 reward 저장하고, state-reward pair state에서 action을 취할 때, reward는 아래와 같이 계산
state= [0,1,2,6,10,14,15]
action = [2,2,1,1,2,2]
reward = [0,0,0,0,0,1]
state1에서 action 2을 취할 때, total reward는 0+0+0+0+1
지금까지는 policy를 적용하면서 V, Q값 구하는 것 함 Monte Carlo prediction task
V, Q 값 구해서 policy를 구하자 -Control task
4번 줄 on-policy
on policy off policy Q, V 값 구해서 policy update
on policy | on policy에서 탐험을 했을때 (혹은 off policy) | |
정의 | 자기 자신을가지고 episode 만들고 update 하면서 Q,V 값 update cf) off policy - episode를 만드는 policy, 내가 optimize하는 policy는 다르다 |
rondom 에서 시작하지만 내가 사용하는 policy로 진행![]() |
장점 | 1. 다양성 2. 더 좋은 policy를 발견할 수 있다. |
|
단점 | 1. 탐험거부. 더 좋은 policy에 대한 exploration을 하지 않음 2. state space가 넓을 수록 안 가보는 state action이 많음 |
1. risk(의미 없는 행동이 수 있다) 2. exploration해서 나온 policy가 최적의 방향을 제시한다는 보장이 없음 |
구현 방법 | 1. greedy policy - 항상 value가 높은 곳으로 진행 2. epsilon-greedy policy - epsilon이라는 임계치를 줘서, 90% 높은 value, 10% random exploration |
exploration
exploration - explotiataion dilemma
(새로운)탐험- (가진 정보) 활용
4번 줄은 오직 Epsilon-greedy policy에만 있는 줄