7. Monte Carlo(2/3) - incremental mean~on policy

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

공부 정리 블로그

7. Monte Carlo(2/3) - incremental mean~on policy 본문

대학원 수업/강화학습

7. Monte Carlo(2/3) - incremental mean~on policy

따옹 2022. 10. 22. 10:04

model free - 자율주행차/공장차

model based - 게임/ 모델링된 환경

Arithmetic mean

Incremental mean

total return 100, 200, 300, 400, 500일 때, V(s)?

Arithmetic mean : (100+200+300+400+500)/5 = 300

Incremental mean: (100+(200-100)/2, 150+(300-150)/3, ….)

alpha = 1/n(t)일 때는 Arithmetic mean, Incremental mean동일

alpha = 0.3(특정 상수로 주어졌을 때) weighted average

v(s) = v(s) + 0.3 R(t) - 0.3V(s)

= 0.7v(s) + 0.3 R(t) #weighted average

V 값 state 값 / Q값 action, state 값

모든 reward 저장하고, state-reward pair state에서 action을 취할 때, reward는 아래와 같이 계산

state= [0,1,2,6,10,14,15]

action = [2,2,1,1,2,2]

reward = [0,0,0,0,0,1]

state1에서 action 2을 취할 때, total reward는 0+0+0+0+1

지금까지는 policy를 적용하면서 V, Q값 구하는 것 함 Monte Carlo prediction task

V, Q 값 구해서 policy를 구하자 -Control task

4번 줄 on-policy

on policy off policy Q, V 값 구해서 policy update

	on policy	on policy에서 탐험을 했을때 (혹은 off policy)
정의	자기 자신을가지고 episode 만들고 update 하면서 Q,V 값 update cf) off policy - episode를 만드는 policy, 내가 optimize하는 policy는 다르다	rondom 에서 시작하지만 내가 사용하는 policy로 진행
장점	~~항상 최상의 상태를 선택~~	1. 다양성 2. 더 좋은 policy를 발견할 수 있다.
단점	1. 탐험거부. 더 좋은 policy에 대한 exploration을 하지 않음 2. state space가 넓을 수록 안 가보는 state action이 많음	1. risk(의미 없는 행동이 수 있다) 2. exploration해서 나온 policy가 최적의 방향을 제시한다는 보장이 없음
구현 방법		1. greedy policy - 항상 value가 높은 곳으로 진행 2. epsilon-greedy policy - epsilon이라는 임계치를 줘서, 90% 높은 value, 10% random exploration

exploration

exploration - explotiataion dilemma

(새로운)탐험- (가진 정보) 활용

4번 줄은 오직 Epsilon-greedy policy에만 있는 줄

'대학원 수업 > 강화학습' 카테고리의 다른 글

10. Temporal Differnence Learning(2/2) SARSA vs - Q learning (1)	2022.10.22
8. MonteCarlo(3/3) - off-policy ~ importance sampling (0)	2022.10.22
6. Monte Carlo method(1/3) - prediction (0)	2022.10.22
5. The Bellman Equation and Dynamic Programming(3/3)-Dynamic Programming - Policy Iteration (0)	2022.10.22
4. The Bellman Equation and Dynamic Programming(2/3) - Dynamic Programming - Value Iteration 계산 (0)	2022.10.22

'대학원 수업/강화학습' Related Articles

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

공부 정리 블로그

공부 정리 블로그

7. Monte Carlo(2/3) - incremental mean~on policy 본문

7. Monte Carlo(2/3) - incremental mean~on policy

Arithmetic mean

Incremental mean

exploration

'대학원 수업 > 강화학습' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역