# ロジットレンズ(logit lens) ## 定義 トランスフォーマーの各中間層の出力を最終線形層(unembed行列)に通すことで、**その層がどのトークンのロジットをどれだけ押し上げているか**を定量的に読み取る解釈性ツール。nostalgebraist(2020, LessWrong)が提案し、機構的解釈性研究の基盤ツールの一つとなっている。(Source: [[joisino-LLMのキモい算術-2025]]) ## 仕組み トランスフォーマーの最終線形層への入力 $v \in \mathbb{R}^d$ は、残差接続の性質から各層の出力の総和: $v = \sum_l v^{(l)}$ 最終線形層は語彙サイズ $|V|$ の行列 $W \in \mathbb{R}^{|V| \times d}$ であり、トークンのロジットを $Wv \in \mathbb{R}^{|V|}$ として計算する。 **ロジットレンズの操作**: 各層の出力 $v^{(l)} \in \mathbb{R}^d$ を単独で最終線形層に通すと $W v^{(l)} \in \mathbb{R}^{|V|}$ が得られ、その層が最終ロジットに与える寄与を直接測れる。 MLP の中間ニューロン $i$ の寄与は 2層目のパラメータ行列の $i$ 列目 $u^{(l)}_i \in \mathbb{R}^d$ を用いて $W u^{(l)}_i \in \mathbb{R}^{|V|}$ として個別に算出できる。これにより**特定ニューロンがどのトークン群を押し上げるか**が分かる。 ## 活用例 [[LLM算術機構]] の研究では、ロジットレンズを使って各ヒューリスティックニューロンが発火時にどのトークン群のロジットを増加させるかを測定し、ヒューリスティックニューロンを同定している。 ## 横断的知見 - ロジットレンズは残差接続という Transformer の構造的性質を利用しており、残差接続なしのアーキテクチャには直接適用できない。 - ロジットレンズで見えるのは「層ごとの線形寄与」であり、ソフトマックスを通した後の非線形な確率への影響は別途考慮が必要。 ## 未解決の問い - ロジットレンズが捉えるニューロン単位の寄与は、注意ヘッド間の相互作用(非線形効果)をどこまで説明できるか? - より精度の高いバリアント(tuned lens など)との比較でどの程度の限界があるか? ## 関連ページ - [[機構的解釈性]] — 方法論的文脈 - [[LLM算術機構]] — ロジットレンズの具体的な応用 - [[ヒューリスティックの束]] — ロジットレンズで測定された機構 ## 出典 - [[joisino-LLMのキモい算術-2025]] — ロジットレンズの解説とLLM算術への応用