ランク付けされたデモンストレーションから報酬を推定する手法T-REXの論文を読む

keiforbusy https://blog.hatena.ne.jp/keiforbusy/ アンドロイドと電気羊とそれから... https://neuralnetandroid.hatenablog.com/ T-REXというまたかわいい(?)名前の逆強化学習アルゴリズムが発表されたので読んでみました．ざっくり読んだ際のメモなので間違い等はご指摘ください．本文はこちらです↓↓． Extrapolating beyond suboptimal Demonstrations via Inverse Reinforcement Learning from Observations T-Rexを3行でまとめると優劣情報（ランク付け)がある複数のデモンストレーションデータから報酬を推定する手法２つの行動軌跡からランク付けが正しくなるように報酬関数をニューラルネットによって回帰するこの報酬を使って強化学… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fneuralnetandroid.hatenablog.com%2Fentry%2F2019%2F04%2F30%2F142108" title="ランク付けされたデモンストレーションから報酬を推定する手法T-REXの論文を読む - アンドロイドと電気羊とそれから..." class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> https://paper-attachments.dropbox.com/s_9B0201A55A6B44169E2F0BBA87AC157238FB8D30EB5948F166EA117CC0A0436A_1556422430789_image.png Hatena Blog https://hatena.blog 2019-04-30 14:21:08 ランク付けされたデモンストレーションから報酬を推定する手法T-REXの論文を読む rich https://neuralnetandroid.hatenablog.com/entry/2019/04/30/142108 1.0 100%