ロジットレンズ - yuuk1's Digital Garden

# ロジットレンズ（logit lens） ## 定義トランスフォーマーの各中間層の出力を最終線形層（unembed行列）に通すことで、**その層がどのトークンのロジットをどれだけ押し上げているか**を定量的に読み取る解釈性ツール。nostalgebraist（2020, LessWrong）が提案し、機構的解釈性研究の基盤ツールの一つとなっている。(Source: [[joisino-LLMのキモい算術-2025]]) ## 仕組みトランスフォーマーの最終線形層への入力 $v \in \mathbb{R}^d$ は、残差接続の性質から各層の出力の総和: $v = \sum_l v^{(l)}$ 最終線形層は語彙サイズ $|V|$ の行列 $W \in \mathbb{R}^{|V| \times d}$ であり、トークンのロジットを $Wv \in \mathbb{R}^{|V|}$ として計算する。 **ロジットレンズの操作**: 各層の出力 $v^{(l)} \in \mathbb{R}^d$ を単独で最終線形層に通すと $W v^{(l)} \in \mathbb{R}^{|V|}$ が得られ、その層が最終ロジットに与える寄与を直接測れる。 MLP の中間ニューロン $i$ の寄与は 2層目のパラメータ行列の $i$ 列目 $u^{(l)}_i \in \mathbb{R}^d$ を用いて $W u^{(l)}_i \in \mathbb{R}^{|V|}$ として個別に算出できる。これにより**特定ニューロンがどのトークン群を押し上げるか**が分かる。 ## 活用例 [[LLM算術機構]] の研究では、ロジットレンズを使って各ヒューリスティックニューロンが発火時にどのトークン群のロジットを増加させるかを測定し、ヒューリスティックニューロンを同定している。 ## 横断的知見 - ロジットレンズは残差接続という Transformer の構造的性質を利用しており、残差接続なしのアーキテクチャには直接適用できない。 - ロジットレンズで見えるのは「層ごとの線形寄与」であり、ソフトマックスを通した後の非線形な確率への影響は別途考慮が必要。 - [[joisino-LLMのキモい算術-2025]] ではロジットレンズをニューロン単位の寄与測定に用いるのに対し、[[@2025__SpeakerDeck__言語モデルの内部機序：解析と解釈]] では層単位の予測トークン推移の可視化(「日本の首都は」入力でLayer3「首都」→Layer4以降「東京」に収束)や、非英語入力時に中間層が英語を経由する現象(Wendler et al. 2024、中国語「花」処理で中間層が英語"flower"に近い予測を出す)の発見に用いられており、同一ツールが「機構の同定」と「多言語処理の経路解明」という異なる目的に応用されている(Source: [[@2025__SpeakerDeck__言語モデルの内部機序：解析と解釈]])。 - [[joisino-LLMの脳内をハッキングする技術-2026]] では、`llm-jp/llm-jp-4-8b-instruct` に「Q: ルーブル美術館があるのは？」と問うたときの層ごとの予測トークン推移(第15〜17層「都市名を出すべき」→第28層「Paris」に確定→第31層「パリ」に日本語変換)をロジットレンズで観察し、その結果を[[知識編集]]の対象層(第28層付近のMLP)を特定するための**探索ツール**として使う、という第3の応用例(「機構の同定」「多言語処理の経路解明」に続く「編集対象層の特定」)を示した(Source: [[joisino-LLMの脳内をハッキングする技術-2026]])。 ## 未解決の問い - ロジットレンズが捉えるニューロン単位の寄与は、注意ヘッド間の相互作用（非線形効果）をどこまで説明できるか？ - より精度の高いバリアント（tuned lens など）との比較でどの程度の限界があるか？ - 非英語処理時に中間層が英語を経由するという観察(Wendler et al. 2024)は、モデルの「第一言語」的な内部表現の存在を示唆するのか、それとも学習データの英語優位性を反映した副産物に過ぎないのか(Source: [[@2025__SpeakerDeck__言語モデルの内部機序：解析と解釈]])。 ## 関連ページ - [[機構的解釈性]] — 方法論的文脈 - [[LLM算術機構]] — ロジットレンズの具体的な応用 - [[ヒューリスティックの束]] — ロジットレンズで測定された機構 - [[知識編集]] — ロジットレンズで特定した層を対象にした介入 ## 出典 - [[joisino-LLMのキモい算術-2025]] — ロジットレンズの解説とLLM算術への応用 - [[@2025__SpeakerDeck__言語モデルの内部機序：解析と解釈]] — 層単位の予測トークン推移可視化・多言語処理経路の発見 - [[joisino-LLMの脳内をハッキングする技術-2026]] — 知識編集対象層の特定への応用