{"blog_title":"GA\u5c06\uff1f\u958b\u767a\u65e5\u8a18\uff5e\u738b\u7406\u306e\u305d\u306e\u5148\u3078\uff5e","author_name":"Gasyou","published":"2016-11-12 16:24:10","url":"https://gasyou.hatenablog.jp/entry/20161112/1478935450","width":"100%","description":"https://arxiv.org/pdf/1611.01626.pdf Deepmind\u306e\u4e2d\u306e\u4eba\u306e\u8ad6\u6587\u3002\u65b9\u7b56\u52fe\u914d\u6cd5\u3068Q\u5b66\u7fd2\u306e\u7d44\u307f\u5408\u308f\u305b\u3089\u3057\u3044\u3002","title":"PGQ: COMBINING POLICY GRADIENT AND Q-LEARNING","author_url":"https://blog.hatena.ne.jp/Gasyou/","provider_url":"https://hatena.blog","type":"rich","categories":["\u5f8c\u3067\u8aad\u3080"],"blog_url":"https://gasyou.hatenablog.jp/","html":"<iframe src=\"https://hatenablog-parts.com/embed?url=https%3A%2F%2Fgasyou.hatenablog.jp%2Fentry%2F20161112%2F1478935450\" title=\"PGQ: COMBINING POLICY GRADIENT AND Q-LEARNING - GA\u5c06\uff1f\u958b\u767a\u65e5\u8a18\uff5e\u738b\u7406\u306e\u305d\u306e\u5148\u3078\uff5e\" class=\"embed-card embed-blogcard\" scrolling=\"no\" frameborder=\"0\" style=\"display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;\"></iframe>","version":"1.0","height":"190","provider_name":"Hatena Blog","image_url":null}