麻雀AIを深層強化学習で作るその９(自己対局)

TadaoYamaoka https://blog.hatena.ne.jp/TadaoYamaoka/ TadaoYamaokaの開発日記 https://tadaoyamaoka.hatenablog.com/ 麻雀AI 前回は、牌譜の記録/再生処理を実装した。今回は、自己対局で牌譜を生成する処理を実装する。処理方式強化学習のアルゴリズムにPPOを使用予定で、PPOはオンポリシーのアルゴリズムのため、現在のモデルで牌譜生成現在のモデルで生成した牌譜でモデルを学習モデルのバージョン更新というサイクルをシーケンシャルに繰り返す。プログラム構成プログラムは、牌譜を生成するActorと、モデルを学習するLearnerで構成する。 Actorは、処理速度を考慮して、C++で実装する。 Learnerは、PyTorchで学習を行うのでPythonで実装する。Actorは複数プロセスで分散して実行できるよう… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Ftadaoyamaoka.hatenablog.com%2Fentry%2F2023%2F11%2F13%2F230333" title="麻雀AIを深層強化学習で作るその９(自己対局) - TadaoYamaokaの開発日記" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> Hatena Blog https://hatena.blog 2023-11-13 23:03:33 麻雀AIを深層強化学習で作るその９(自己対局) rich https://tadaoyamaoka.hatenablog.com/entry/2023/11/13/230333 1.0 100%