手数ごとのポリシーと訪問回数のKL情報量

TadaoYamaoka https://blog.hatena.ne.jp/TadaoYamaoka/ TadaoYamaokaの開発日記 https://tadaoyamaoka.hatenablog.com/ dlshogi 山下さんがAobaZeroのKL情報量を調べていて、気になったのでdlshogiでも調べてみた。 KL情報量は、2つの確率分布の差異を測る指標である。ニューラルネットワークで予測したポリシーと、MCTSで探索した結果のルートノードでの訪問回数のKL情報量を測ることで、どれくらいポリシーの予測が外れているかが確認できる。 KL情報量 Pをポリシーの確率分布、Qを訪問回数の確率分布とすると、KL情報量は以下の式で表される。測定結果連続対局を行い、手数ごとのKL情報量の平均を算出した結果は、以下の通り。seabornで95%信頼区間も表示している。 sns.relplot(x='ply', y… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Ftadaoyamaoka.hatenablog.com%2Fentry%2F2022%2F01%2F29%2F223428" title="手数ごとのポリシーと訪問回数のKL情報量 - TadaoYamaokaの開発日記" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> https://cdn-ak.f.st-hatena.com/images/fotolife/T/TadaoYamaoka/20220129/20220129221826.png Hatena Blog https://hatena.blog 2022-01-29 22:34:28 手数ごとのポリシーと訪問回数のKL情報量 rich https://tadaoyamaoka.hatenablog.com/entry/2022/01/29/223428 1.0 100%