AlphaGo Zeroの論文を読むその3(探索アルゴリズム)

TadaoYamaoka https://blog.hatena.ne.jp/TadaoYamaoka/ TadaoYamaokaの開発日記 https://tadaoyamaoka.hatenablog.com/ AlphaGo AlphaGo Zero コンピュータ囲碁その2の続き今回は対局時の探索アルゴリズムについてです。探索アルゴリズム対局時はpolicyとvalueを使ったモンテカルロ木探索(APV-MCTS)を使用する。探索は複数スレッドで並列に行う。探索木の各ノードsは以下の情報を持つ。 N(s,a) 行動aの訪問回数 W(s,a) 行動aの行動価値の合計 Q(s,a) 行動aの行動価値の平均 P(s,a) 行動aの事前確率選択展開済みノードの選択は、以前のAlphaGo(Fan Huiバージョン)と同じPUCTアルゴリズムを使う。 PUCTアルゴリズム UCTアルゴリズムをpolicyを使って拡張したアルゴリズム。 UCB1に代わって以… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Ftadaoyamaoka.hatenablog.com%2Fentry%2F2017%2F10%2F21%2F174532" title="AlphaGo Zeroの論文を読むその3(探索アルゴリズム) - TadaoYamaokaの開発日記" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> http://chart.apis.google.com/chart?cht=tx&chl=Q%28s_t%2Ca%29%2BU%28s_t%2Ca%29 Hatena Blog https://hatena.blog 2017-10-21 17:45:32 AlphaGo Zeroの論文を読むその3(探索アルゴリズム) rich https://tadaoyamaoka.hatenablog.com/entry/2017/10/21/174532 1.0 100%