<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<oembed>
  <author_name>waxwings37</author_name>
  <author_url>https://blog.hatena.ne.jp/waxwings37/</author_url>
  <blog_title>Insight Edge Tech Blog</blog_title>
  <blog_url>https://techblog.insightedge.jp/</blog_url>
  <categories>
    <anon>LLM</anon>
    <anon>生成AI</anon>
    <anon>GCP</anon>
    <anon>AIエージェント</anon>
  </categories>
  <description>こんにちは！Insight Edge データサイエンティストの角田です。今回は、LLMを評価者として使う「LLM-as-a-Judge」の決定性について、手元の実験で検証した内容を共有します。 背景 実験設計 評価対象 評価モデルと回答生成モデルの分離 評価プロンプト 制御条件 結果 同一スコアの出現率 考察 gemini-2.5-proが揺れた原因 gemini-3-pro-previewが安定した理由 補足：thinking_levelによるスコア差 まとめ 背景 LLM-as-a-Judgeとは、LLMを評価者として用い、生成された回答の品質を判定させる手法です。近年の大規模言語モデルの…</description>
  <height>190</height>
  <html>&lt;iframe src=&quot;https://hatenablog-parts.com/embed?url=https%3A%2F%2Ftechblog.insightedge.jp%2Fentry%2Fllm-as-a-judge-determinism&quot; title=&quot;同じ入力なのにスコアが変わる——LLM-as-a-Judgeの決定性を検証してみた - Insight Edge Tech Blog&quot; class=&quot;embed-card embed-blogcard&quot; scrolling=&quot;no&quot; frameborder=&quot;0&quot; style=&quot;display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;&quot;&gt;&lt;/iframe&gt;</html>
  <image_url>https://cdn-ak.f.st-hatena.com/images/fotolife/i/insightedge/20260224/20260224090004.png</image_url>
  <provider_name>Hatena Blog</provider_name>
  <provider_url>https://hatena.blog</provider_url>
  <published>2026-02-24 09:00:00</published>
  <title>同じ入力なのにスコアが変わる——LLM-as-a-Judgeの決定性を検証してみた</title>
  <type>rich</type>
  <url>https://techblog.insightedge.jp/entry/llm-as-a-judge-determinism</url>
  <version>1.0</version>
  <width>100%</width>
</oembed>
