同じ入力なのにスコアが変わる——LLM-as-a-Judgeの決定性を検証してみた

waxwings37 https://blog.hatena.ne.jp/waxwings37/ Insight Edge Tech Blog https://techblog.insightedge.jp/ LLM 生成AI GCP AIエージェントこんにちは！Insight Edge データサイエンティストの角田です。今回は、LLMを評価者として使う「LLM-as-a-Judge」の決定性について、手元の実験で検証した内容を共有します。背景実験設計評価対象評価モデルと回答生成モデルの分離評価プロンプト制御条件結果同一スコアの出現率考察 gemini-2.5-proが揺れた原因 gemini-3-pro-previewが安定した理由補足：thinking_levelによるスコア差まとめ背景 LLM-as-a-Judgeとは、LLMを評価者として用い、生成された回答の品質を判定させる手法です。近年の大規模言語モデルの… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Ftechblog.insightedge.jp%2Fentry%2Fllm-as-a-judge-determinism" title="同じ入力なのにスコアが変わる——LLM-as-a-Judgeの決定性を検証してみた - Insight Edge Tech Blog" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> https://cdn-ak.f.st-hatena.com/images/fotolife/i/insightedge/20260224/20260224090004.png Hatena Blog https://hatena.blog 2026-02-24 09:00:00 同じ入力なのにスコアが変わる——LLM-as-a-Judgeの決定性を検証してみた rich https://techblog.insightedge.jp/entry/llm-as-a-judge-determinism 1.0 100%