<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<oembed>
  <author_name>mabonki0725</author_name>
  <author_url>https://blog.hatena.ne.jp/mabonki0725/</author_url>
  <blog_title>mabonki0725の日記</blog_title>
  <blog_url>https://mabonki0725.hatenablog.com/</blog_url>
  <categories>
    <anon>AI論文</anon>
    <anon>ロボテックス</anon>
  </categories>
  <description>テニス２時間 英語：できず (1) ゲームのアイテム毎に強化学習する論文を読む 「Hybrid Reward Architecher for Reinforcement Learning」https://arxiv.org/abs/1706.04208 (1.1) 論文の意図 DQNは画面からDNNで直接特徴量を読み取り、特徴量の変化と得点で強化学習を行うが、複雑な場面の場合には特徴量の変動が読み取り難く容易に学習が進まない。そこでゲームを特徴付けているアイテム毎に分解して強化学習すれば特徴量の変動が簡単に補足でき、効果的な学習ができるとの考えである。 具体的にはパックマン・ゲームの場合、パッ…</description>
  <height>190</height>
  <html>&lt;iframe src=&quot;https://hatenablog-parts.com/embed?url=https%3A%2F%2Fmabonki0725.hatenablog.com%2Fentry%2F2017%2F08%2F21%2F080730&quot; title=&quot;MicroSoftのゲームのアイテム毎に強化学習する論文を読む - mabonki0725の日記&quot; class=&quot;embed-card embed-blogcard&quot; scrolling=&quot;no&quot; frameborder=&quot;0&quot; style=&quot;display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;&quot;&gt;&lt;/iframe&gt;</html>
  <image_url>http://famicon.s348.xrea.com/entries/19841102_packman/pacman01.png</image_url>
  <provider_name>Hatena Blog</provider_name>
  <provider_url>https://hatena.blog</provider_url>
  <published>2017-08-21 08:07:30</published>
  <title>MicroSoftのゲームのアイテム毎に強化学習する論文を読む</title>
  <type>rich</type>
  <url>https://mabonki0725.hatenablog.com/entry/2017/08/21/080730</url>
  <version>1.0</version>
  <width>100%</width>
</oembed>
