ペアワイズな評価を用いたLLM性能比較：Bradley-Terryモデルとモデルペア動的サンプリング

ronwall1701 https://blog.hatena.ne.jp/ronwall1701/ とあの方舟 https://toa-hakobune.hatenablog.com/ 機械学習自然言語処理はじめに大規模言語モデル（LLM）の性能評価を行う際に、「モデルAとモデルBのどちらの出力の方が望ましいか？」というペアワイズな評価を収集してモデルの性能を比較することが増えています。その代表例はChatbot Arena (https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard)ですが、今回は彼らの取り組みを紹介する以下の論文[Chiang+24]を読んで、どのようにユーザーによってアノテーションされたペアワイズな評価結果からモデルごとのスコアが計算されているのかを勉強してみました。arxiv.org 定式化個のモデ… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Ftoa-hakobune.hatenablog.com%2Fentry%2F2024%2F03%2F17%2F122011" title="ペアワイズな評価を用いたLLM性能比較：Bradley-Terryモデルとモデルペア動的サンプリング - とあの方舟" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> Hatena Blog https://hatena.blog 2024-03-17 12:20:11 ペアワイズな評価を用いたLLM性能比較：Bradley-Terryモデルとモデルペア動的サンプリング rich https://toa-hakobune.hatenablog.com/entry/2024/03/17/122011 1.0 100%