将棋でディープラーニングするその52(自己対局で教師局面生成)

TadaoYamaoka https://blog.hatena.ne.jp/TadaoYamaoka/ TadaoYamaokaの開発日記 https://tadaoyamaoka.hatenablog.com/ AlphaZeroと同様の方式で、自己対局で教師局面を生成するプログラムを作成した。自己対局の仕様以下の仕様はAlphaZeroと同じとした。自己対局を行う双方のプレイヤーは、同一のモデルを使用する。プレイアウトは固定プレイアウト数以下の点は変更した。開始局面は、Aperyと同じようにroots.hcpからランダムで選択し、1手ランダムムーブを行う。常に、ルート局面でのプレイアウト数が最大の手を選択する(グリーディー戦略)。 1点目は、AlphaZeroでは、初期局面から一定の手数まではルートノードの合法手のプレイアウト数に応じた確率分布に従って指すことで序盤の手をばらけさせてい… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Ftadaoyamaoka.hatenablog.com%2Fentry%2F2018%2F02%2F10%2F195858" title="将棋でディープラーニングするその52(自己対局で教師局面生成) - TadaoYamaokaの開発日記" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> http://chart.apis.google.com/chart?cht=tx&chl=%7B%20%5Cdisplaystyle%0Ap%20%5Cleftarrow%20%28p%20%2B%201%29%20%2F%202%0A%7D Hatena Blog https://hatena.blog 2018-02-10 19:58:58 将棋でディープラーニングするその52(自己対局で教師局面生成) rich https://tadaoyamaoka.hatenablog.com/entry/2018/02/10/195858 1.0 100%