목록전체 글 (171)
공부 정리 블로그

(요약)강화학습이란? 환경이 주어지고 주어진 환경을 state로 정의 state 정의가 어렵다. action 사람이 오른쪽/아래/밑/아래 action 단순 transition probability P(s'|s,a) : 어떤 state에서 어떤 action 을 취했을 때그 다음 state가 무엇인가 reward 우리가 학습 시키고자 하는 목표 높아지는 쪽으로 움직임. agent학습 시 하나의 episode가 어떤 경로를 통해서 가는데, reward들의 합을 최대화 하는 방향으로 학습 Expectation X = random variable 결과가 항상 그 때그때 다르지만 확률적으로 얘기할 수 있다. 주사위를 한 번 굴렸을 때 기대값 E(X)가 있다. ex) 3.5 Action space (right dow..

강화학습의 기초 (이론/수학적 Backgroun / 심층강화학습) -> 실제 코드로 구현하자 아기가 밥을 먹을 때, 숟가락으로 밥을 떠먹어라 알려주는 것 -> 강화학습 x 밥을 주고 숟가락을 주고 가만 있을 때, 숟가락을 사용 안하면 -10점, 숟가락을 사용하면 +10점 우연히 숟가락으로 밥을 먹을 때 박수 치는 게 강화학습, 방법을 알려주는 건 강화학습x 불필요한 초기 학습 과정이 심한 것이 강화학습의 단점 ex) 슈퍼마리오 -> 강화학습으로 학습할 때 초반에는 무조건 구멍으로 빠짐 벽돌깨기 등 RL이 무엇인가 (개념적인 얘기) 어떤 agent가 특정 환경에서 어떤 행동을 하면서 리워드를 받아서 점점 그 리워드가 높아지는 방향으로 행동을 바꾸도록 학습하는 것 ex) agent -> 바둑 player 직..

#1 글을 작성하고 블로그를 관리해보세요. 따옹님의 회원 가입을 진심으로 축하합니다. 이 글은 비공개로 작성돼 있습니다. '편집'으로 내용을 바꾸시거나, 삭제 후 '새 글을 작성'하셔도 됩니다. 글 뿐만 아니라 블로그의 각종 설정을 변경할 수도 있습니다. '블로그관리'를 확인해보세요. #2 다양한 스킨이 있어요. 티스토리에 있는 다양한 '스킨'도 살펴 보세요. 블로그나 사이트를 사용하는 목적에 맞게 스킨을 고를 수 있습니다. 어떤 이야기를 주로 하실 건가요? 잘 생각해 보시고, 마음에 드는 스킨을 고르세요. '스킨 편집'을 통해 다양한 커스텀, 그리고 홈 꾸미기를 적용하실 수도 있답니다. #3 포럼에서 사람들과 소통하세요. 마지막으로 사용하시다가 티스토리에 대해 궁금한 내용이 있다면 '포럼'을 확인하세요..