SARSA法による倒立振子 (Ｑ値を見える化)

Start_python https://blog.hatena.ne.jp/Start_python/ ふたり暮らし https://start-python.hateblo.jp/ gymの倒立振子を使って強化学習SARSA法 Q-learningとSARSA法の違い次のアクション(next_action)を学習の前に求める(SARSA法)か、学習の後で決定する(Q-learning)かが違います。先に求めるSARSA法だとε-greedy法によりランダムになる場合が出てきます。むずかしいことはわかりませんが、Q-learningのメリットははランダム要素が少なく結果が早く収束することだと思います。SARSA法のメリットはランダム要素により収束まで時間はかかりますが最適な方向へより安定した結果を出せることだと思います。（間違ってたらごめんなさい）まとめるとSARSA… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fstart-python.hateblo.jp%2Fentry%2F2019%2F11%2F30%2F090000" title="SARSA法による倒立振子 (Ｑ値を見える化) - ふたり暮らし" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> https://cdn-ak.f.st-hatena.com/images/fotolife/S/Start_python/20191128/20191128103151.gif Hatena Blog https://hatena.blog 2019-11-30 09:00:00 SARSA法による倒立振子 (Ｑ値を見える化) rich https://start-python.hateblo.jp/entry/2019/11/30/090000 1.0 100%