UCBとGAを組み合わせた方策による、探索を制御するパラメータの学習

Gasyou https://blog.hatena.ne.jp/Gasyou/ GA将？開発日記～王理のその先へ～ https://gasyou.hatenablog.jp/ アイデアメモ自己対戦による強化学習を前提とします。評価関数のパラメータはTDLeaf(λ)等のアルゴリズムで学習出来ますが、αβ法での探索を制御するパラメータ*1は微分が難しい*2ので、どうやって学習させればいいか決めかねていました。で、以下の様な流れで学習できないかと思ったので、メモとして残しておきます。 GA*3の遺伝子として数通りのパラメータを用意する。対局毎にどのパラメータを使用するかをUCBで選択する。数局終了後に、各遺伝子を用いた際の勝率をGAの適応度*4として使用して、次世代の個体群*5を生成する。 2に戻る。ま、やるとしても選手権後ですが。それまでは評価関数の学習に集中します。 … 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fgasyou.hatenablog.jp%2Fentry%2F20080128%2F1201533772" title="UCBとGAを組み合わせた方策による、探索を制御するパラメータの学習 - GA将？開発日記～王理のその先へ～" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> Hatena Blog https://hatena.blog 2008-01-28 00:22:52 UCBとGAを組み合わせた方策による、探索を制御するパラメータの学習 rich https://gasyou.hatenablog.jp/entry/20080128/1201533772 1.0 100%