<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<oembed>
  <author_name>eternal-student</author_name>
  <author_url>https://blog.hatena.ne.jp/eternal-student/</author_url>
  <blog_title>eternal-studentのブログ</blog_title>
  <blog_url>https://www.eternalstudent.jp/</blog_url>
  <categories>
    <anon>IT</anon>
  </categories>
  <description>近年、長期的な意思決定能力を備えた大型言語モデル（LLM）がゲームに挑む様子が注目を集めている。Anthropic社のClaude 3.7 Sonnetが2025年2月にTwitchで『ポケットモンスター 赤』をプレイする配信を開始し、その考え方や行動が公に観察されるようになった。GoogleのGemini 2.5 Proや他の開発者が続き、25年以上前のゲームがLLMの認知能力を測る新しいテストベッドとなりつつある。この配信は厳密な科学実験ではないが、現代のAIがどのように環境と対話するか、そしてその限界がどこにあるのかを示す貴重な窓口となっている。 本稿では、これらの「人工ポケモン知能」プロジェクトを分析し、AIモデル自体だけでなく、外部のエージェントハーネスが性能にいかに影響を与えているのかを考察する。従来のテキストベースのベンチマークが飽和しつつある今、具体的な環境でエージェントとして振る舞う能力を検証する試みは、汎用人工知能（AGI）の将来を考える上で重要である。</description>
  <height>190</height>
  <html>&lt;iframe src=&quot;https://hatenablog-parts.com/embed?url=https%3A%2F%2Fwww.eternalstudent.jp%2Fentry%2F2025%2F09%2F04%2F060515&quot; title=&quot;すべてをベンチマークせよ：高度AIにポケモン赤をプレイさせると、その「思考」の何が明らかになるのか - eternal-studentのブログ&quot; class=&quot;embed-card embed-blogcard&quot; scrolling=&quot;no&quot; frameborder=&quot;0&quot; style=&quot;display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;&quot;&gt;&lt;/iframe&gt;</html>
  <image_url>https://cdn-ak.f.st-hatena.com/images/fotolife/e/eternal-student/20260308/20260308095937.png</image_url>
  <provider_name>Hatena Blog</provider_name>
  <provider_url>https://hatena.blog</provider_url>
  <published>2026-03-08 10:00:00</published>
  <title>すべてをベンチマークせよ：高度AIにポケモン赤をプレイさせると、その「思考」の何が明らかになるのか</title>
  <type>rich</type>
  <url>https://www.eternalstudent.jp/entry/2025/09/04/060515</url>
  <version>1.0</version>
  <width>100%</width>
</oembed>
