すべてをベンチマークせよ：高度AIにポケモン赤をプレイさせると、その「思考」の何が明らかになるのか

eternal-student https://blog.hatena.ne.jp/eternal-student/ eternal-studentのブログ https://www.eternalstudent.jp/ IT 近年、長期的な意思決定能力を備えた大型言語モデル（LLM）がゲームに挑む様子が注目を集めている。Anthropic社のClaude 3.7 Sonnetが2025年2月にTwitchで『ポケットモンスター赤』をプレイする配信を開始し、その考え方や行動が公に観察されるようになった。GoogleのGemini 2.5 Proや他の開発者が続き、25年以上前のゲームがLLMの認知能力を測る新しいテストベッドとなりつつある。この配信は厳密な科学実験ではないが、現代のAIがどのように環境と対話するか、そしてその限界がどこにあるのかを示す貴重な窓口となっている。本稿では、これらの「人工ポケモン知能」プロジェクトを分析し、AIモデル自体だけでなく、外部のエージェントハーネスが性能にいかに影響を与えているのかを考察する。従来のテキストベースのベンチマークが飽和しつつある今、具体的な環境でエージェントとして振る舞う能力を検証する試みは、汎用人工知能（AGI）の将来を考える上で重要である。 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fwww.eternalstudent.jp%2Fentry%2F2025%2F09%2F04%2F060515" title="すべてをベンチマークせよ：高度AIにポケモン赤をプレイさせると、その「思考」の何が明らかになるのか - eternal-studentのブログ" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> https://cdn-ak.f.st-hatena.com/images/fotolife/e/eternal-student/20260308/20260308095937.png Hatena Blog https://hatena.blog 2026-03-08 10:00:00 すべてをベンチマークせよ：高度AIにポケモン赤をプレイさせると、その「思考」の何が明らかになるのか rich https://www.eternalstudent.jp/entry/2025/09/04/060515 1.0 100%