Reinforcement Learning2 강화 학습의 기본 개념들 정리 Basic Concepts of Reinforcement LearningMAB부터 공부를 하다 보니 개념들이 헷갈려서 정리해서 올린다. agent, environment, policy, value 등등에 대해서 정리한다. 우선 에이전트 (Agent)란 환경 (Environment)와 상호작용하고 학습하며 의사결정을 내리고 행동 (action)을 취하는 주체다. 환경 (Environment)이란 agent가 상호작용하는 외부 세계로 액션에 반응하여 새로운 상태 (Status)와 보상 (Reward)를 준다. 상태 (Status)란 agent가 처한 구체적인 상황, 정보를 뜻한다. Variable로는 $S$, 구체적인 값으로는 소문자 $s$로 나타낸다. 행동 (Action)이란 agent.. 2025. 3. 21. MAB (Multi-Armed Bandit) 설명과 코드 해당 내용은 Richard Sutton과 Barto Andrew의 Reinforcement Learning: An Introduction의 내용을 토대로 공부한 내용이다. 이공계는 대부분 원서로 공부하기도 하고 굳이 번역하기는 귀찮아서 거의 다 그냥 원문 그대로 적었다. Every step, take an action that has maximum expected value, which is called $greedy$ action.By exploiting, select greedy action, and by exploring select an non-greedy action. Let $q_(a)$ be the true (actual) value of action $a$.Denote $Q_t (a.. 2025. 3. 20. 이전 1 다음