機構的解釈性 - yuuk1's Digital Garden

## 定義機械学習モデルに埋め込まれた機構やアルゴリズムを特定することで、モデルが「なぜそのような出力を生成するか」を内部構造から理解する研究分野。[[アテンションヘッド]]や MLP の内部回路を解析することで、特定の能力（文法判断・文脈内学習・推論）がどのヘッドや層に対応するかを明らかにする。ブラックボックス的な入出力評価（「性能指標が高い／低い」）とは異なり、**モデルの内部アルゴリズムそのものを解読**することを目指す。 ## 代表的な研究成果 | 発見 | 研究 | |-----|------| | [[帰納ヘッド]] の特定と文脈内学習との関係 | Olsson+ 2022 | | BERT の文法ヘッド（第8層が直接目的語→動詞注意） | Clark+ 2019 | | 文法ヘッドの訓練中の相転移的出現 | Chen+ ICLR 2024 | | [[関数ベクトル]]による関数ベクトルの抽出と転移 | Todd+ ICLR 2024 | | [[反復ヘッド]]と CoT のテープ類比 | Cabannes+ NeurIPS 2024 | | MLP ニューロンによる [[ヒューリスティックの束]] で四則演算を解く | Nikankin+ ICLR 2025 | ## 横断的知見 - 機構的解釈性の主要なツール: (1) 注意パターンの可視化、(2) ヘッドをアブレーション（削除）したときの性能変化の測定、(3) 内部状態ベクトルの加算実験（プロービング）。 - 小規模・合成タスクでの解析が主流だが、実際の大規模 LLM でも類似機構の存在を支持する証拠が積み重なっている。 - LLM の能力が「チューリングマシン的計算装置＋静的データベース」として理解できるというフレームワークは、機構的解釈性の知見から導かれる（Source: [[joisino-LLMアテンションと外挿-2025]]）。 - [[Physics of Language Models]] は機構的解釈性と同様の「内部状態プロービング」手法を使いながら、コントロールされたデータで訓練した LLM に対して普遍則の発見を目指す。LLM が[[文脈自由文法]]を習得すると内部で動的計画法的パターンが観察され、算数問題解答時には誤答前から内部状態に誤りの予兆が現れるなど、出力観察のみでは分からない内部計算の実態を明らかにする。(Source: [[joisino-言語モデルの物理学-2025]]) - 機構的解釈性の研究は注意ヘッドを主対象とすることが多いが、MLP ニューロンの機能分化からも重要な発見が得られる。[[LLM算術機構]] では個々の MLP ニューロンが「粗い条件判定子（ヒューリスティック）」として機能することが示された（Source: [[joisino-LLMのキモい算術-2025]]）。 - 機構的解釈性は「注意ヘッドの役割を同定する」アプローチだが、帰属手法（attribution methods）との比較では、法則が本質的に高次元均一分散の構造を持つ場合は両アプローチとも説明能力に上限がある。このような場合は解釈ではなく検証（[[AI検証可能性]]）に軸足を移すことが現実的（Source: [[joisino-超人的AIと認知不能情報-2025]]）。 - [[認知意味論]]フレームワークから LLM 埋め込みを分析する手法は機構的解釈性と相補的である。埋め込みのコサイン類似度を「典型度」として解析することで、カテゴリー分類では人間と整合しながら**プロトタイプ性の感覚**では大きく乖離するという新しい切り口が生まれた（Source: [[joisino-LLMと言葉の感じ方-2026]]）。 - 機構的解釈性の全体像は、モデル→内部表現の解析→計算過程の解析→言語・世界・知識との対応づけ(解釈)という3段階フローとして整理できる。手法は(1)注意パターンの観察、(2)語彙空間への射影([[ロジットレンズ]]等)、(3)出力への数学的・介入的な影響度測定、(4)Circuit Analysis の4群に分類される(Source: [[@2025__SpeakerDeck__言語モデルの内部機序：解析と解釈]])。 - 機構的解釈性は「局所性・一対一対応」(概念・機能の局在性、内部表現と対応物の一対一対応)という暗黙の仮定に依拠するが、この仮定はSAEのfeature absorption([[SAE]]参照)、同一入出力に対する複数の等価な回路の存在(XORの例で159通りの完全写像・85種の回路が25種の抽象化に縮約)、同一出力を導く複数の実際の計算メカニズムの共存(事実想起メカニズムと反事実理解メカニズムの競合)によって掘り崩される例が蓄積している(Source: [[@2025__SpeakerDeck__言語モデルの内部機序：解析と解釈]])。 - 「表現と計算」というパラダイムそのものへの懐疑も存在する。ワットの調速機(governor)は表象も計算も持たずに目的を達成するシステムであり、言語モデルを「表現と計算」の枠組みで解釈しようとする指針自体が的外れである可能性が指摘される(Van Gelder 1995、Source: [[@2025__SpeakerDeck__言語モデルの内部機序：解析と解釈]])。 ## 未解決の問い - 大規模 LLM で同定されたすべての重要回路は網羅されているか？ - 機構的解釈性の知見はモデルの安全性・アライメントにどう活用できるか？ - 帰属手法・機構的解釈性のいずれも機能しない「本質的に複雑な法則」を、どのような基準で事前に判別できるか？ - 認知意味論的分析（典型度・フレーム・メンタルスペース等）を LLM 埋め込みに体系的に適用したとき、機構的解釈性の回路分析とどこで交差・補完し合うか？ - 「局所性・一対一対応」という前提が成立しない場合(feature absorption、複数の等価な回路・メカニズム)、解釈結果の信頼性をどう評価すべきか(Source: [[@2025__SpeakerDeck__言語モデルの内部機序：解析と解釈]])。 - 「解釈は誰のためか」というステークホルダー論(開発者/意思決定者/科学者/社会)は、解析手法の選択や評価基準にどう反映されるべきか(Source: [[@2025__SpeakerDeck__言語モデルの内部機序：解析と解釈]])。 ## 関連ページ - [[アテンションヘッド]] — 解析の主対象 - [[帰納ヘッド]] / [[関数ベクトル]] / [[反復ヘッド]] — 代表的発見 - [[LLM算術機構]] / [[ヒューリスティックの束]] — MLP ニューロン視点の発見 - [[ロジットレンズ]] — ニューロンの出力寄与を測定するツール - [[帰属手法]] — 補完的な入力帰属アプローチ（高次元均一信号での限界を共有） - [[AI検証可能性]] — 解釈困難な場合の代替戦略 - [[敵対的摂動]] — 人間非可知情報が正当な分類根拠を含むという文脈 - [[認知意味論]] / [[LLM意味表象]] — 埋め込みを「感じ方」として解析する相補的アプローチ - [[操舵ベクトル]] / [[知識編集]] / [[活性化パッチング]] — 観察から一歩進み、内部状態への介入で機構仮説を実証する手法群