アテンションヘッド - yuuk1's Digital Garden

## 定義 [[Transformer]] の各層に複数存在する自己注意（self-attention）機構の単一ユニット。あるトークンが「どのトークンに注目して情報を収集するか」を決定する。LLM の注意ヘッドは機能的に分化しており、それぞれが異なる役割を担う。 ## 機能的分類 [[佐藤竜馬]] 2025 年のサーベイ（[[joisino-LLMアテンションと外挿-2025]]）は 7 種を整理した。 | 種別 | 機能概要 | 参照 | |-----|---------|------| | **文法ヘッド** | 構文的依存関係（動詞←目的語など）に沿って注意を向ける | Clark+ 2019; Chen+ ICLR 2024 | | **注意の受け皿** | 対応先のないトークンが先頭トークン・句読点等に集中する受け皿 | Sun+ COLM 2024 | | **逐次ヘッド** | 直近数トークンのみ参照するN-gram的ヘッド（多数） | Wu+ ICLR 2025 | | **検索ヘッド** | 全文脈から必要な情報を取得する長距離参照ヘッド（少数） | Wu+ ICLR 2025 | | **[[帰納ヘッド]]** | `[A][B]...[A]→[B]` パターンで文脈内学習を実現 | Olsson+ 2022 | | **[[関数ベクトル]]** | タスク関数をベクトルで表現し MLP に渡す | Todd+ ICLR 2024 | | **[[反復ヘッド]]** | CoT テープ上の反復計算で処理位置を追跡 | Cabannes+ NeurIPS 2024 | ## 横断的知見 - 機能分化は明示的設計なく、次トークン予測精度の最大化を通じて**自然に出現**する。文法ヘッドは訓練途中に相転移的に突然出現し、同時期に文法能力が急上昇する（Chen+ ICLR 2024）。 - 検索ヘッドは少数（例：LLaMA 等で数十個中の一部）しか存在しないが、ニードルインアヘイスタックタスクにおいて 20 個削除すると精度が 94.7% → 63.6% に落ちる。逐次ヘッド 20 個削除では性能変化がほぼない。 - 注意の受け皿は、特殊トークン・句読点のセマンティクス的「空き地」をモデルが効率的に活用した結果として生まれる。ビジョントランスフォーマーでも同現象が確認されている（Darcet+ ICLR 2024）。 - **レジスタトークン**（Darcet+ ICLR 2024）は、受け皿機能を専用の無意味トークンへ明示的に割り当てることで注意分布を「きれい」にし、性能向上をもたらす。デコーダー型では自己回帰制約のため実現困難。 - [[joisino-LLMアテンションと外挿-2025]] の「注意の受け皿」は、[[@2025__SpeakerDeck__言語モデルの内部機序：解析と解釈]] が扱う attention sink 現象(文頭[CLS]・文末[SEP]・句読点への注意重み偏重)と同一現象を指す。後者はこの現象がmassive activations/super weights(外れ値活性化)と結びつくメカニズムを詳述し、StreamingLLM・SepLLMのようなアーキテクチャ的対処や、softmax₁・clipped_softmax・Gated attentionのような数式レベルの緩和策を紹介する点でレジスタトークンとは異なる解決アプローチを示す(Source: [[@2025__SpeakerDeck__言語モデルの内部機序：解析と解釈]])。 - 注意重みをそのまま「説明」として解釈してよいかについては議論があり(Jain & Wallace 2019 "Attention is not Explanation" 対 Wiegreffe & Pinter 2019 等の反論)、Value ベクトルのノルムを考慮する拡張手法(Kobayashi et al. 2020)を使うと文頭偏重の見かけ上の強さが薄まることが示されている(Source: [[@2025__SpeakerDeck__言語モデルの内部機序：解析と解釈]])。 - IOI回路(Wang et al. 2023)は、Duplicate Token Heads・S-Inhibition Heads・Name Mover Headsという複数のアテンションヘッドの協調として間接目的語予測を実現する、複数ヘッド構成の代表例である(Source: [[@2025__SpeakerDeck__言語モデルの内部機序：解析と解釈]])。 ## 未解決の問い - attention sink(注意の受け皿)への数式レベルの緩和策(softmax₁等)とレジスタトークンのようなアーキテクチャレベルの解決策は、どちらがより本質的な対処か。両者は排他的か併用可能か(Source: [[@2025__SpeakerDeck__言語モデルの内部機序：解析と解釈]])。 - 注意重みの解釈可能性論争は決着していない。Value ベクトルのノルムを考慮する等の拡張手法は、どこまで「説明」としての妥当性を回復できるか(Source: [[@2025__SpeakerDeck__言語モデルの内部機序：解析と解釈]])。 ## 未解決の問い - 7 分類以外の重要ヘッドは存在するか？各ヘッドに別の解釈や説明はあるか？ - 検索ヘッドが少数に絞られる理由は何か（コスト最適化？訓練ダイナミクス？）。 - 文法ヘッドの相転移は他の能力（算術・コーディング等）でも観察されるか？ ## 関連ページ - [[Transformer]] — アテンションヘッドが実装されるアーキテクチャ - [[機構的解釈性]] — ヘッド機能を特定する方法論 - [[帰納ヘッド]] / [[関数ベクトル]] / [[反復ヘッド]] — 代表的ヘッド種別