PPOにまつわる備忘録

sakata_harumi https://blog.hatena.ne.jp/sakata_harumi/ JKになりたい https://wanttobejk.com/ 機械学習何の記事か最近、HuggingFaceの強化学習チュートリアルをみてたんですよ。で、PPOのこの最後の目的関数の意味がわからなかったんですよね。これ。 (1) 各項は「クリップされた代理方策目的関数 - 価値関数の目的関数 + エントロピーボーナス」となっています。本記事はこれを理解するための備忘録です。ただ、多分色々解釈間違ってるんでご指摘いただけると嬉しいです。なぜ1つの目的関数でActorとCriticを更新できるの？一般的なActorCriticでは、 Actorは (2) Criticは (3) で最適化しましょう、となっていました。それぞれ目的関数が定義され、それぞれ最… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fwanttobejk.com%2Fentry%2F2023%2F10%2F22%2F113941" title="PPOにまつわる備忘録 - JKになりたい" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> Hatena Blog https://hatena.blog 2023-10-22 11:39:41 PPOにまつわる備忘録 rich https://wanttobejk.com/entry/2023/10/22/113941 1.0 100%