LLM算術機構 - yuuk1's Digital Garden

# LLM算術機構 ## 定義 LLM が四則演算（加算・減算・乗算・除算）を解く際の内部機構。Nikankin ら（ICLR 2025）が Llama3-8B を対象に分析し、ヒューリスティックニューロンによる**粗い条件判定の積み重ね**で正解トークンが浮き彫りになるという仕組みを明らかにした。厳密な計算アルゴリズムを実行しているのではなく、多数の弱い判定が協調して正解を選ぶという意味で、ヒューリスティックの束（bag of heuristics）とも呼ばれる。(Source: [[joisino-LLMのキモい算術-2025]]) ## ヒューリスティックニューロン特定の条件（範囲・剰余クラス・パターン・オペランド一致）が成立するときのみ発火し、対応するトークン群のロジットを増加させるニューロン。条件の種類: | 種類 | 発火条件の例 | |------|-------------| | 範囲 | 評価結果 ∈ [150, 180] | | 剰余 | 評価結果 mod 10 = 8 | | パターン | 値が `1.2` のような正規表現にマッチ | | オペランド一致 | {op1} = {op2} | | 複数結果（除算のみ） | 値 ∈ {有限集合 S} | 各ニューロンが押し上げるトークン群には誤答候補も含まれるが、真の答えだけが多数のヒューリスティックに繰り返し引っかかり傑出した確率を得る。 ## 計算ミスの説明正答時と誤答時のニューロン発火を比較すると、誤答時はヒューリスティックニューロンによる正解トークンのロジット押し上げが不足している。真の答えが他の候補トークンを十分に上回れず誤答が選ばれる。(Source: [[joisino-LLMのキモい算術-2025]]) ## 横断的知見 - [[機構的解釈性]] の研究は注意ヘッドに焦点を当てることが多いが、本機構はMLPニューロンの機能分化に着目している点で補完的な視点を提供する。(Source: [[joisino-LLMのキモい算術-2025]], [[joisino-LLMアテンションと外挿-2025]]) - 注意ヘッドが「プログラムを実行する汎用計算装置」として機能する([[joisino-LLMアテンションと外挿-2025]])一方、算術演算に関しては MLP ニューロンが粗い条件判定を分担するという役割分担が見えてくる。 ## 未解決の問い - 四則演算以外の推論タスク（論理・比較・コード生成等）でも同様の bag of heuristics が成立するか？ - より大規模なモデル（70B 以上）では同じ機構が維持されるか、それとも別の仕組みが出現するか？ - Chain-of-Thought を使う場合、ヒューリスティックニューロンの発火パターンはどう変わるか？ - ヒューリスティックニューロンを抑制・強化することで計算精度を制御できるか？ ## 関連ページ - [[機構的解釈性]] — 分析の方法論的基盤 - [[ヒューリスティックの束]] — 本機構の命名と中心概念 - [[ロジットレンズ]] — ニューロン寄与の測定ツール - [[アテンションヘッド]] — MLP と対をなす注意機構の機能分化研究 ## 出典 - [[joisino-LLMのキモい算術-2025]] — Nikankin+ ICLR 2025 の解説記事