バンディットアルゴリズムの復習３：UCB(Upper Confidence Bound)

misos https://blog.hatena.ne.jp/misos/ めも https://paper.hatenadiary.jp/ python 機械学習バンディット前回 UCB(Upper Confidence Bound) UCBの説明理論的な説明 UCBのアルゴリズムアームの定義 Arm0: ベルヌーイ Arm1: 適当に作った分布実験 Arm0: ベルヌーイ Arm1: 適当に作った分布次回参考文献前回 ε-Greedy+softmaxについてやった。 UCB(Upper Confidence Bound) UCBの説明これまでのアルゴリズムはアームの期待報酬から引くかどうかを定めていたけれども、アームを引いた回数（どれくらいそのアームについて知識があるか）が考慮されていなかった。それを踏まえた上で、”ボーナス”という変数を追加し… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fpaper.hatenadiary.jp%2Fentry%2F2016%2F12%2F04%2F222905" title="バンディットアルゴリズムの復習３：UCB(Upper Confidence Bound) - めも" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> https://cdn-ak.f.st-hatena.com/images/fotolife/m/misos/20161204/20161204222610.png Hatena Blog https://hatena.blog 2016-12-04 22:29:05 バンディットアルゴリズムの復習３：UCB(Upper Confidence Bound) rich https://paper.hatenadiary.jp/entry/2016/12/04/222905 1.0 100%