LLM のアテンションと外挿

joisino https://blog.hatena.ne.jp/joisino/ ｼﾞｮｲｼﾞｮｲｼﾞｮｲ https://joisino.hatenablog.com/ LLM の注意機構には色んな機能があることが分かっています。注意機構を分析することで、なぜ LLM は文脈内学習や思考の連鎖に成功し、ひいてはなぜ LLM が外挿に成功することがあるのかについての理解が得られます。本稿ではさまざまな種類の注意機構を観察することでこの問題をひも解きたいと思います。目次目次基本的な考え方文法ヘッド注意の受け皿とレジスタトークン逐次ヘッドと検索ヘッド帰納ヘッド関数ベクトル反復ヘッドまとめ基本的な考え方 LLM の多くは注意機構と多層パーセプトロン (MLP) を交互に積み上げたアーキテクチャを持ちます。各層は複数の注意機構をもち、それぞれの機構… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fjoisino.hatenablog.com%2Fentry%2Fheads" title="LLM のアテンションと外挿 - ｼﾞｮｲｼﾞｮｲｼﾞｮｲ" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> https://cdn-ak.f.st-hatena.com/images/fotolife/j/joisino/20250929/20250929152244.png Hatena Blog https://hatena.blog 2025-09-29 17:26:04 LLM のアテンションと外挿 rich https://joisino.hatenablog.com/entry/heads 1.0 100%