将棋AI実験ノート：方策の学習に温度パラメータを導入

TadaoYamaoka https://blog.hatena.ne.jp/TadaoYamaoka/ TadaoYamaokaの開発日記 https://tadaoyamaoka.hatenablog.com/ dlshogi コンピュータ将棋以前にdlshogiで方策の分布を学習できるようにしたが、方策の分布を学習したモデルで対局すると、指し手のみを学習したモデルよりも弱くなるという問題が起きている。温度パラメータの調整である程度強くできたが、指し手のみを学習したモデルには及んでいない。分布を学習することで、探索する手が広がるため、探索の深さが浅くなることが原因と考えている。この特性は、強化学習を行う際には、新しい手を探索しやすくなるため有効に働く。モデルの方策と価値のfloodgateの棋譜に対する精度も高くなることが分かっている。世界コンピュータ選手権向けのモデルでは、方策の分布を学習して強化学習したモデルで生成した指… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Ftadaoyamaoka.hatenablog.com%2Fentry%2F2021%2F05%2F14%2F133245" title="将棋AI実験ノート：方策の学習に温度パラメータを導入 - TadaoYamaokaの開発日記" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> https://cdn-ak.f.st-hatena.com/images/fotolife/T/TadaoYamaoka/20210514/20210514131844.png Hatena Blog https://hatena.blog 2021-05-14 13:32:45 将棋AI実験ノート：方策の学習に温度パラメータを導入 rich https://tadaoyamaoka.hatenablog.com/entry/2021/05/14/133245 1.0 100%