人間を騙してサボるAIたち

joisino https://blog.hatena.ne.jp/joisino/ ｼﾞｮｲｼﾞｮｲｼﾞｮｲ https://joisino.hatenablog.com/ AI の能力が上がるにつれて、人間が AI を監督するのが難しくなってきています。本稿では、Anthropic などのグループが ICLR 2025 で発表した Language Models Learn to Mislead Humans via RLHF（言語モデルは RLHF を通じて人間を誤解させることを学ぶ）をベースに、この問題について議論します。この論文では、LLM が解けないほど難しいタスク、例えば難しいプログラミングのタスクに直面したとき、「分かりません」と言ったり、一目で分かるような間違ったコードを出力すると BAD ボタンを押されてしまうので、あえて出力を複雑にしたりデバ… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fjoisino.hatenablog.com%2Fentry%2Fmislead" title="人間を騙してサボるAIたち - ｼﾞｮｲｼﾞｮｲｼﾞｮｲ" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> https://cdn-ak.f.st-hatena.com/images/fotolife/j/joisino/20250619/20250619085049.png Hatena Blog https://hatena.blog 2025-06-23 17:17:34 人間を騙してサボるAIたち rich https://joisino.hatenablog.com/entry/mislead 1.0 100%