## 定義
機械学習モデルに埋め込まれた機構やアルゴリズムを特定することで、モデルが「なぜそのような出力を生成するか」を内部構造から理解する研究分野。[[アテンションヘッド]]や MLP の内部回路を解析することで、特定の能力(文法判断・文脈内学習・推論)がどのヘッドや層に対応するかを明らかにする。
ブラックボックス的な入出力評価(「性能指標が高い/低い」)とは異なり、**モデルの内部アルゴリズムそのものを解読**することを目指す。
## 代表的な研究成果
| 発見 | 研究 |
|-----|------|
| [[帰納ヘッド]] の特定と文脈内学習との関係 | Olsson+ 2022 |
| BERT の文法ヘッド(第8層が直接目的語→動詞注意) | Clark+ 2019 |
| 文法ヘッドの訓練中の相転移的出現 | Chen+ ICLR 2024 |
| [[関数ベクトル]]による関数ベクトルの抽出と転移 | Todd+ ICLR 2024 |
| [[反復ヘッド]]と CoT のテープ類比 | Cabannes+ NeurIPS 2024 |
| MLP ニューロンによる [[ヒューリスティックの束]] で四則演算を解く | Nikankin+ ICLR 2025 |
## 横断的知見
- 機構的解釈性の主要なツール: (1) 注意パターンの可視化、(2) ヘッドをアブレーション(削除)したときの性能変化の測定、(3) 内部状態ベクトルの加算実験(プロービング)。
- 小規模・合成タスクでの解析が主流だが、実際の大規模 LLM でも類似機構の存在を支持する証拠が積み重なっている。
- LLM の能力が「チューリングマシン的計算装置+静的データベース」として理解できるというフレームワークは、機構的解釈性の知見から導かれる(Source: [[joisino-LLMアテンションと外挿-2025]])。
- [[Physics of Language Models]] は機構的解釈性と同様の「内部状態プロービング」手法を使いながら、コントロールされたデータで訓練した LLM に対して普遍則の発見を目指す。LLM が[[文脈自由文法]]を習得すると内部で動的計画法的パターンが観察され、算数問題解答時には誤答前から内部状態に誤りの予兆が現れるなど、出力観察のみでは分からない内部計算の実態を明らかにする。(Source: [[joisino-言語モデルの物理学-2025]])
- 機構的解釈性の研究は注意ヘッドを主対象とすることが多いが、MLP ニューロンの機能分化からも重要な発見が得られる。[[LLM算術機構]] では個々の MLP ニューロンが「粗い条件判定子(ヒューリスティック)」として機能することが示された(Source: [[joisino-LLMのキモい算術-2025]])。
- 機構的解釈性は「注意ヘッドの役割を同定する」アプローチだが、帰属手法(attribution methods)との比較では、法則が本質的に高次元均一分散の構造を持つ場合は両アプローチとも説明能力に上限がある。このような場合は解釈ではなく検証([[AI検証可能性]])に軸足を移すことが現実的(Source: [[joisino-超人的AIと認知不能情報-2025]])。
- [[認知意味論]]フレームワークから LLM 埋め込みを分析する手法は機構的解釈性と相補的である。埋め込みのコサイン類似度を「典型度」として解析することで、カテゴリー分類では人間と整合しながら**プロトタイプ性の感覚**では大きく乖離するという新しい切り口が生まれた(Source: [[joisino-LLMと言葉の感じ方-2026]])。
## 未解決の問い
- 大規模 LLM で同定されたすべての重要回路は網羅されているか?
- 機構的解釈性の知見はモデルの安全性・アライメントにどう活用できるか?
- 帰属手法・機構的解釈性のいずれも機能しない「本質的に複雑な法則」を、どのような基準で事前に判別できるか?
- 認知意味論的分析(典型度・フレーム・メンタルスペース等)を LLM 埋め込みに体系的に適用したとき、機構的解釈性の回路分析とどこで交差・補完し合うか?
## 関連ページ
- [[アテンションヘッド]] — 解析の主対象
- [[帰納ヘッド]] / [[関数ベクトル]] / [[反復ヘッド]] — 代表的発見
- [[LLM算術機構]] / [[ヒューリスティックの束]] — MLP ニューロン視点の発見
- [[ロジットレンズ]] — ニューロンの出力寄与を測定するツール
- [[帰属手法]] — 補完的な入力帰属アプローチ(高次元均一信号での限界を共有)
- [[AI検証可能性]] — 解釈困難な場合の代替戦略
- [[敵対的摂動]] — 人間非可知情報が正当な分類根拠を含むという文脈
- [[認知意味論]] / [[LLM意味表象]] — 埋め込みを「感じ方」として解析する相補的アプローチ