강화학습1 MAB (Multi-Armed Bandit) 설명과 코드 해당 내용은 Richard Sutton과 Barto Andrew의 Reinforcement Learning: An Introduction의 내용을 토대로 공부한 내용이다. 이공계는 대부분 원서로 공부하기도 하고 굳이 번역하기는 귀찮아서 거의 다 그냥 원문 그대로 적었다. Every step, take an action that has maximum expected value, which is called $greedy$ action.By exploiting, select greedy action, and by exploring select an non-greedy action. Let $q_(a)$ be the true (actual) value of action $a$.Denote $Q_t (a.. 2025. 3. 20. 이전 1 다음