最近の言語生成の強化学習

snowman_88888 https://blog.hatena.ne.jp/snowman_88888/ Seitaro Shinagawaの雑記帳 https://snowman-88888.hatenablog.com/ こんにちは、品川です。本記事は強化学習 Advent Calendar 2021 6日目の記事です。短いですが、最近の言語生成周りの強化学習関連の話題を取り上げたいと思います。言語生成周りの強化学習のおさらい（2020年時点での私の理解）最近の言語生成の強化学習①：REINFORCEもPPOへ徐々に移行中最近の言語生成の強化学習②：価値ベース？できるよ。そう、事前学習済み言語モデルならね言語生成周りの強化学習のおさらい（2020年時点での私の理解）言語生成モデルの訓練にはTeacher forcingを用いる言語生成で最もよく使われている強化学習手法は、方策勾配法の最も簡単な手法… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fsnowman-88888.hatenablog.com%2Fentry%2F2021%2F12%2F06%2F080000" title="最近の言語生成の強化学習 - Seitaro Shinagawaの雑記帳" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> Hatena Blog https://hatena.blog 2021-12-06 08:00:00 最近の言語生成の強化学習 rich https://snowman-88888.hatenablog.com/entry/2021/12/06/080000 1.0 100%