麻雀AIを深層強化学習で作るその８(牌譜の記録/再生)

TadaoYamaoka https://blog.hatena.ne.jp/TadaoYamaoka/ TadaoYamaokaの開発日記 https://tadaoyamaoka.hatenablog.com/ 麻雀AI 強化学習実装の準備として、牌譜の記録/再生を実装した。PPOでは、エピソードの終端の報酬を、GAEで各ステップの状態に割り当てるため、エピソードの各ステップの状態を再生できるように記録しておく必要がある。また、ランダムな初期局面からの対局を再生できるように、対局の開始状態（手牌、河、牌山）を記録しておく必要がある。通常の麻雀の牌譜で使われるフォーマットでは対応できないため、独自のフォーマットで記録する。フォーマット記録が必要な情報ゲームルール（赤牌有無やクイタン有無など）起家各局の初期局面（手牌、河、牌山）各局のアクション（打牌、副露、槓、和了）打牌後に副露できる状態で誰も副露… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Ftadaoyamaoka.hatenablog.com%2Fentry%2F2023%2F11%2F05%2F142036" title="麻雀AIを深層強化学習で作るその８(牌譜の記録/再生) - TadaoYamaokaの開発日記" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> Hatena Blog https://hatena.blog 2023-11-05 14:20:36 麻雀AIを深層強化学習で作るその８(牌譜の記録/再生) rich https://tadaoyamaoka.hatenablog.com/entry/2023/11/05/142036 1.0 100%