強化学習の手法

HTN20190109 https://blog.hatena.ne.jp/HTN20190109/ HTN20190109の日記 https://htn20190109.hatenablog.com/ DL ・動的計画法環境の完全なモデルがマルコフ決定過程として与えられている場合に適用できる・・方策反復法評価と改善のフェーズを繰り返す・・価値反復法評価と改善を一つの式で更新する・モンテカルロ法遷移のサンプルを取得し得られた収益を平均化することによって価値関数を推定するエピソードが終了しないと価値関数を更新できない・TD学習目標価値と現在価値のずれを修正することで価値関数を推定する・・Sarsa 方策オン型(挙動方策とターゲット方策が同じ) ・・Q学習方策オフ型(挙動方策とターゲット方策が異なる) Sarsaよりも行動価値関数の収束が早くなることが多い・方策勾配法方策をニューラ… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fhtn20190109.hatenablog.com%2Fentry%2F2026%2F04%2F29%2F203237" title="強化学習の手法 - HTN20190109の日記" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> Hatena Blog https://hatena.blog 2026-04-29 20:32:37 強化学習の手法 rich https://htn20190109.hatenablog.com/entry/2026/04/29/203237 1.0 100%