「確率的パラメータを持つ方策関数に対する方策勾配法」読んだまとめ

Gasyou https://blog.hatena.ne.jp/Gasyou/ GA将？開発日記～王理のその先へ～ https://gasyou.hatenablog.jp/ 開発日記 ci.nii.ac.jp 概要オープンアクセス不可の論文なんで、気になった所だけ書こうと思います。通常の方策勾配法では、パラメータは「確定的な」ベクトルである。これを、ハイパーパラメータ*1から生成される「確率的な」ベクトルに拡張する。つまり、の値は（多分）エピソードごとにランダムに変化する。学習の目的は、を最適化する事。方策とする。は、状態・（ランダムに生成された）パラメータのもとで行動を選択する確率。は、ハイパーパラメータのもとでパラメータが生成される確率。後は、この方策をに関して微分してやって、方策勾配法でよしなに最適化する。こうすると何が嬉しいかと言うと、探索・搾取の… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fgasyou.hatenablog.jp%2Fentry%2F2018%2F12%2F17%2F162057" title="「確率的パラメータを持つ方策関数に対する方策勾配法」読んだまとめ - GA将？開発日記～王理のその先へ～" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> https://chart.apis.google.com/chart?cht=tx&chl=%5Ctheta Hatena Blog https://hatena.blog 2018-12-17 16:20:57 「確率的パラメータを持つ方策関数に対する方策勾配法」読んだまとめ rich https://gasyou.hatenablog.jp/entry/2018/12/17/162057 1.0 100%