ヒューリスティックの束 - yuuk1's Digital Garden

# ヒューリスティックの束（bag of heuristics） ## 定義 LLM が推論タスクを解く際の機構として、Nikankin ら（ICLR 2025）が提唱した概念。各ニューロンが「粗い条件が成立するときに発火して特定トークン群のロジットを押し上げる」という弱い判定子（ヒューリスティック）として機能し、**多数の弱い判定が積み重なることで正解トークンが傑出した確率を得る**仕組み。個々の判定は正解を一意に定めないが、その束（集合体）が協調して正解を選ぶ。(Source: [[joisino-LLMのキモい算術-2025]]) ## 仕組み ``` ヒューリスティックニューロン1（範囲条件） → トークン群 A のロジット+ ヒューリスティックニューロン2（剰余条件） → トークン群 B のロジット+ ヒューリスティックニューロン3（パターン条件）→ トークン群 C のロジット+ ... → ... ↓ 正解トークンは A∩B∩C∩... に含まれるため繰り返し押し上げられる誤答候補は少数の条件しか満たさず相対的に低いまま ``` 偽陽性（誤答候補トークンも一部押し上げられる）は存在するが、真の答えだけが多数の条件を同時に満たすため、集計の結果として正解が浮き彫りになる。 ## 弱さと堅牢性のトレードオフ - **弱さ**: 個々のヒューリスティックは計算結果を一意に定めない。単独では確定的な判定ができない。 - **堅牢性**: 多数の独立した弱いシグナルの重ね合わせにより、単一ニューロンの誤作動が全体に影響しにくい。 - **脆弱性**: ヒューリスティックニューロンによる押し上げが少ない状況では計算ミスが起きる（[[LLM算術機構]]）。 ## 横断的知見 - ヒューリスティックの束という機構は、LLM が「プログラムを実行する汎用計算装置」として振る舞うという([[joisino-LLMアテンションと外挿-2025]])の解釈と対立するように見えるが、両者は相補的である。注意ヘッドがアルゴリズム的な制御フローを担い、MLPニューロンが粗い判定（ヒューリスティック）を担うと読めば整合する。(Source: [[joisino-LLMのキモい算術-2025]], [[joisino-LLMアテンションと外挿-2025]]) ## 未解決の問い - 算術以外のタスク（常識推論・論理・コード生成）でも bag of heuristics が成立するか？ - ヒューリスティックの束は訓練データの分布変化（分布外入力）に対してどのように崩壊するか？ - 束の「太さ」（ヒューリスティック数）と精度の定量的な関係は？ ## 関連ページ - [[LLM算術機構]] — bag of heuristics が確認された具体的タスク - [[ロジットレンズ]] — 各ニューロンの寄与を測定するツール - [[機構的解釈性]] — 方法論的文脈 ## 出典 - [[joisino-LLMのキモい算術-2025]] — Nikankin+ ICLR 2025 を解説、bag of heuristics を紹介