공부 정리 블로그

7. Monte Carlo(2/3) - incremental mean~on policy 본문

대학원 수업/강화학습

7. Monte Carlo(2/3) - incremental mean~on policy

따옹 2022. 10. 22. 10:04

model free - 자율주행차/공장차

model based - 게임/ 모델링된 환경

 

Arithmetic mean

Incremental mean

total return 100, 200, 300, 400, 500일 때, V(s)?

Arithmetic mean : (100+200+300+400+500)/5 = 300

Incremental mean: (100+(200-100)/2, 150+(300-150)/3, ….)

 

alpha = 1/n(t)일 때는 Arithmetic mean, Incremental mean동일

 

alpha = 0.3(특정 상수로 주어졌을 때) weighted average

v(s) = v(s) + 0.3 R(t) - 0.3V(s)

       = 0.7v(s) + 0.3 R(t) #weighted average

 

V 값 state 값 /  Q값 action, state 값 

 

모든 reward 저장하고, state-reward pair state에서 action을 취할 때, reward는 아래와 같이 계산

state= [0,1,2,6,10,14,15]

action = [2,2,1,1,2,2]

reward = [0,0,0,0,0,1]

state1에서 action 2을 취할 때, total reward는 0+0+0+0+1

 

지금까지는 policy를 적용하면서 V, Q값 구하는 것 함 Monte Carlo prediction task

 

V, Q 값 구해서 policy를 구하자 -Control task

알고리즘

4번 줄 on-policy

on policy off policy Q, V 값 구해서 policy update

  on policy on policy에서 탐험을 했을때 (혹은 off policy)
정의 자기 자신을가지고 episode 만들고 update 하면서 Q,V 값 update

cf) off policy - episode를 만드는 policy, 내가 optimize하는 policy는 다르다
rondom 에서 시작하지만 내가 사용하는 policy로 진행
장점 항상 최상의 상태를 선택 1. 다양성
2. 더 좋은 policy를 발견할 수 있다.
단점 1. 탐험거부. 더 좋은 policy에 대한 exploration을 하지 않음
2. state space가 넓을 수록 안 가보는 state action이 많음
1. risk(의미 없는 행동이 수 있다)
2. exploration해서 나온 policy가 최적의 방향을 제시한다는 보장이 없음
구현 방법   1. greedy policy - 항상 value가 높은 곳으로 진행
2. epsilon-greedy policy - epsilon이라는 임계치를 줘서, 90% 높은 value, 10% random exploration

 

 

 

exploration

exploration - explotiataion dilemma

(새로운)탐험- (가진 정보) 활용

4번 줄은 오직 Epsilon-greedy policy에만 있는 줄