訓練データ1個だけでLLMの推論性能を倍にする

joisino https://blog.hatena.ne.jp/joisino/ ｼﾞｮｲｼﾞｮｲｼﾞｮｲ https://joisino.hatenablog.com/ 推論能力を高めるためには、LLM の事後訓練で使う訓練データは 1 つで十分かもしれません。本稿では訓練データを 1 つだけ使った強化学習についての研究 Reinforcement Learning for Reasoning in Large Language Models with One Training Example（単一の訓練例を用いた大規模言語モデルにおける推論のための強化学習, NeurIPS 2025）について解説します。この研究の結論を直観的に述べると、厳選した数学の問題 1 問の解き方を LLM にひたすら考えさせ続けると高い推論能力が得られるということです。従来の訓練… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fjoisino.hatenablog.com%2Fentry%2Fonedata" title="訓練データ1個だけでLLMの推論性能を倍にする - ｼﾞｮｲｼﾞｮｲｼﾞｮｲ" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> https://cdn-ak.f.st-hatena.com/images/fotolife/j/joisino/20251125/20251125152754.png Hatena Blog https://hatena.blog 2025-11-25 17:47:59 訓練データ1個だけでLLMの推論性能を倍にする rich https://joisino.hatenablog.com/entry/onedata 1.0 100%