強化学習について学んでみた。（その5）

yamaimo0625 https://blog.hatena.ne.jp/yamaimo0625/ いものやま。 https://yamaimo.hatenablog.jp/ 技術 AI 強化学習 Ruby 昨日は、n本腕バンディット問題と、「知識利用」と「探査」のバランスの問題について説明した。今日はn本腕バンディット問題をプログラム（Ruby）で実際に動かしてみる。正規分布に従う乱数生成器今回、n本腕バンディット問題のレバーの期待値、および、レバーを選んだときに得られる報酬は、正規分布に従うとしていた。けど、そもそも正規分布に従う乱数って、どうやって発生させるの？という話。一様分布に従う乱数なら、ライブラリを使えば簡単に得られるけれど、正規分布に従う乱数となると、そうはいかなくなる。ただ、これに関してはボックス＝ミュラー法という方法が知られているので、それを使えばいい。 #====… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fyamaimo.hatenablog.jp%2Fentry%2F2015%2F08%2F21%2F200000" title="強化学習について学んでみた。（その5） - いものやま。" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> https://images-fe.ssl-images-amazon.com/images/I/51PNPA99TZL._SL160_.jpg Hatena Blog https://hatena.blog 2015-08-21 20:00:00 強化学習について学んでみた。（その5） rich https://yamaimo.hatenablog.jp/entry/2015/08/21/200000 1.0 100%