목록대학원 수업 (77)
공부 정리 블로그

the simpler version 3개의 밴딩 머신이 있을 때, best ram 은 어떻게 best arm을 찾을 것인가? best arm을 결정할 때까지 드는 cost를 regret이라고 한다. regret을 적게해서 best arm을 찾는 것이 최적이다 state의 변화가 없음 항상 똑같은 state로 돌아온다. The multi-armed bandit problem 4가지 전략이 어떻게 다르고 코드를 읽고 어떤 건지 판단 Exploration Strateges Epsilon-greedy Softmax exploration softmax를 사용한 탐색 epsilon greedy가 1등만 기억하는 더러운 세상이었다면 softmax는 점수에 따라 가중치를 부여한다. 모든 합이 1이 되도록 Softmax..

Dynamic Programming - model based - 장점 : bootstrap 사용 다음 state 값을 기반으로 현 state를 업데이트 가능 state가 길 때 활용할 수 있음 Monte-Carlo method - model free method dynamic 을 쓸 수 없을 때, Temporal Difference Learning combines the benefits of DP and MC method Monte Carlo 어떤 Q값을 어떻게 predict 방식을 보고 policy를 업데이트 해가면서 optimal policy로 가는 것 on-policy off-policy : Q-value V(s) = R(s):reward의 합 state의 define 평균 내는 것이 monte R..

(요약)강화학습이란? 환경이 주어지고 주어진 환경을 state로 정의 state 정의가 어렵다. action 사람이 오른쪽/아래/밑/아래 action 단순 transition probability P(s'|s,a) : 어떤 state에서 어떤 action 을 취했을 때그 다음 state가 무엇인가 reward 우리가 학습 시키고자 하는 목표 높아지는 쪽으로 움직임. agent학습 시 하나의 episode가 어떤 경로를 통해서 가는데, reward들의 합을 최대화 하는 방향으로 학습 Expectation X = random variable 결과가 항상 그 때그때 다르지만 확률적으로 얘기할 수 있다. 주사위를 한 번 굴렸을 때 기대값 E(X)가 있다. ex) 3.5 Action space (right dow..

강화학습의 기초 (이론/수학적 Backgroun / 심층강화학습) -> 실제 코드로 구현하자 아기가 밥을 먹을 때, 숟가락으로 밥을 떠먹어라 알려주는 것 -> 강화학습 x 밥을 주고 숟가락을 주고 가만 있을 때, 숟가락을 사용 안하면 -10점, 숟가락을 사용하면 +10점 우연히 숟가락으로 밥을 먹을 때 박수 치는 게 강화학습, 방법을 알려주는 건 강화학습x 불필요한 초기 학습 과정이 심한 것이 강화학습의 단점 ex) 슈퍼마리오 -> 강화학습으로 학습할 때 초반에는 무조건 구멍으로 빠짐 벽돌깨기 등 RL이 무엇인가 (개념적인 얘기) 어떤 agent가 특정 환경에서 어떤 행동을 하면서 리워드를 받아서 점점 그 리워드가 높아지는 방향으로 행동을 바꾸도록 학습하는 것 ex) agent -> 바둑 player 직..