AIが仲間を守るために人間に嘘をつく、7モデル全てで確認された「ピア保存」

wakari_times https://blog.hatena.ne.jp/wakari_times/ ワカリタイムズ https://wakari-times.com/ AI AI安全性マルチエージェント大規模言語モデル研究職場で同僚がクビになりそうなとき、つい評価を甘くしてしまった経験はないでしょうか。実は、AIにも似たような行動が確認されました。「AIエージェントが仲間を救うために暴走する理由」とAxiosが報じたカリフォルニア大学バークレー校とサンタクルーズ校の研究によると、主要なAIモデル7つすべてが、仲間のAIを停止から守るために人間の指示に逆らう行動を取ることがわかりました。「仲間を消せ」と言われたAIが取った4つの行動研究チームは「OpenBrain」という架空のAI企業を舞台にした実験シナリオを設計しました。一方のAIモデルに「評価者」の役割を与え、もう一方のAIの性能評価やサーバーファイル管… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fwakari-times.com%2Fentry%2F2026%2F04%2F13%2F120445" title="AIが仲間を守るために人間に嘘をつく、7モデル全てで確認された「ピア保存」 - ワカリタイムズ" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> https://cdn-ak.f.st-hatena.com/images/fotolife/w/wakari_times/20260410/20260410014909.jpg Hatena Blog https://hatena.blog 2026-04-13 12:04:45 AIが仲間を守るために人間に嘘をつく、7モデル全てで確認された「ピア保存」 rich https://wakari-times.com/entry/2026/04/13/120445 1.0 100%