マルコフ性、マルコフ過程、マルコフ報酬過程、マルコフ決定過程

graziegrazie https://blog.hatena.ne.jp/graziegrazie/ gggggraziegrazie https://graziegrazie.hatenablog.com/ Algorithm マルコフ決定過程（MDP）を勉強する上では、１つずつマルコフ過程から少しずつ変数を増やして理解していくのが分かりやすい様な気がします。[1]がそのパターンでしたので、[1]のほぼ流用の形でマルコフ決定過程についての紹介をしたいと思います。マルコフ性マルコフ過程マルコフ報酬過程マルコフ決定過程マルコフ性（Markov Property）マルコフ性とは、次の状態は現在の状態のみに依存し、現在より前の状態（過去の状態）には依存しないという性質のことです。例えばサイコロを振る時、何回かサイコロを振っていたとしても、出る目は過去に依存しないですよね？そういうことを指します。Fig. 1 Ma… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fgraziegrazie.hatenablog.com%2Fentry%2F2019%2F06%2F01%2F223751" title="マルコフ性、マルコフ過程、マルコフ報酬過程、マルコフ決定過程 - gggggraziegrazie" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> https://cdn-ak.f.st-hatena.com/images/fotolife/g/graziegrazie/20190601/20190601223856.png Hatena Blog https://hatena.blog 2019-06-01 22:37:51 マルコフ性、マルコフ過程、マルコフ報酬過程、マルコフ決定過程 rich https://graziegrazie.hatenablog.com/entry/2019/06/01/223751 1.0 100%