強化学習の資料メモ２：多腕バンディット問題

misos https://blog.hatena.ne.jp/misos/ めも https://paper.hatenadiary.jp/ 論文・資料・スライド集機械学習強化学習バンディット基本の内容各種定式化 Exploration/Exploitation Dilemma Stationary Problem(定常なケース) Action-Value Methods 行動選択の戦略 greedy(貪欲) ε-Greedy Soft-max action selection Non-stationary Problem(非定常なケース) アームの行動戦略 Gradient-Bandit All Moves As Fist(AMAF) Upper Confidence Bound (UCB) action selection 次回 Sutton本の2章、多腕バンディット問題関係… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fpaper.hatenadiary.jp%2Fentry%2F2016%2F11%2F30%2F154328" title="強化学習の資料メモ２：多腕バンディット問題 - めも" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> http://ecx.images-amazon.com/images/I/51yD20bFEYL.jpg Hatena Blog https://hatena.blog 2016-11-30 15:43:28 強化学習の資料メモ２：多腕バンディット問題 rich https://paper.hatenadiary.jp/entry/2016/11/30/154328 1.0 100%