밴디트 문제 (multi-armed bandit problem)
밴디트는 오락실의 슬롯머신을 의미합니다.슬롯 머신의 목표는 코인을 최대한 많이 얻는 것이죠! 밴디트 문제에서는 무작위성에 현혹되지 않게 '기댓값'을 기준으로 평가합니다.만약 각 슬롯 머신의 가치(보상 기댓값)을 알면 플레이어는 가장 좋은 슬롯 머신을 고를 수 있음하지만 실제로는 슬롯머신의 가치를 모름각 슬롯 머신을 돌려보며 가치를 추정 (가능한 정확하게) 해야 함따라서 밴디트 문제에서는 greedy 알고리즘과 epsilon 탐색을 통한 문제 풀이를 진행합니다. Bandit Problem 플레이어는 가치 추정치가 가장 높은 머신을 선택해야 합니다. (Greedy Policy 이용)exploitation : 지금까지 실제로 플레이 한 결과를 바탕으로 가장 좋다고 생각되는 슬롯 머신을 플레이(greedy)ex..