2026__MLSys2026__Attribution-based Sparse Activation in Large Language Models

# Attribution-based Sparse Activation in Large Language Models > [!info] Talk metadata > - **会議:** [[MLSys2026]] Day 5 (May 22 / Fri)、Grand Ballroom 2、Research Track Oral: Efficient Computation（08:15 PDT 開始、第2発表） > - **登壇者:** Xiangyu Yin（University of Pittsburgh, Department of Electrical and Computer Engineering。スライド表紙で下線付き表記 = 登壇者。Jifeng Song と共同筆頭著者（*Equal contribution）。Corresponding author は Wei Gao <[email protected]>） > - **全著者:** Jifeng Song*¹, Xiangyu Yin*¹, Boyuan Yang¹, Kai Huang¹, Weichen Liu¹, Wei Gao¹（*: equal contribution） > - **所属:** ¹Department of Electrical and Computer Engineering, University of Pittsburgh, USA > - **URL:** https://mlsys.org/virtual/2026/oral/3779 / OpenReview: https://openreview.net/forum?id=gJFigZeb5D > - **関連研究:** Intelligent System Laboratory @ Pitt — http://pittisl.github.io > [!abstract] 概要（OpenReview） > LLM の推論はパラメータ規模の大きさゆえに計算コストが高い。既存手法はモデル再訓練によって計算コストを削減するが、異なる下流タスクや実行時に変化する入力データへの適応が困難である。再訓練を回避しつつ実行時適応性を得るには、推論中に入力依存のニューロン集合を選択的に非活性化するスパースアクティベーションが有効である。しかし現行の無損失スパースアクティベーション手法は出力値がゼロのニューロンのみを非活性化するため、パラメータ効率の高い最近の LLM には効果が薄い。本論文では、帰属スコア（attribution score）の低いニューロンを非活性化する**帰属ベーススパースアクティベーション**を提案する。これはモデル精度と計算コストの最良のトレードオフを目指す有損失スパースアクティベーション手法である。最適なスパースアクティベーションを保証するため、ニューロン間の帰属スコアの相互依存性に起因する既存帰属指標の大きな誤差を定量化し、この誤差を証明付きで補正できる新しい帰属指標を提案した。実験では、質問応答やテキスト要約などの困難な生成タスクにおいて、モデル精度の損失を 5% 未満に抑えつつ最大 70% のモデルスパーシティを達成できることを示す。この高いスパーシティにより、LLM 推論の計算レイテンシとメモリ使用量をそれぞれ 35% および 40% 削減できる。 ## 背景と動機: 現代 LLM でゼロ出力ニューロンはほぼ存在しない - LLM 推論の計算・メモリコストは深刻である。GPT-4 の年間エネルギー消費は米国主要都市の消費量に匹敵し、2.7B パラメータの Phi-2 でさえ 6-8 GB のメモリを要する（スライド2）。 - 既存のコスト削減手法（プルーニング・量子化・蒸留）はオフラインで固定されるため、実行時に入力やタスクへ適応できない（スライド3）。 - **スパースアクティベーション**は推論時に入力依存で不要なニューロンを非活性化する手法であり、再訓練不要で量子化や蒸留と直交・補完的に使える（スライド4）。 - 従来の**無損失スパースアクティベーション**は ReLU 活性化関数を持つ OPT 等の旧世代 LLM で有効であった。OPT-6.7B ではニューロン出力の 38.5% が厳密にゼロであり、これらを非活性化しても精度損失なく最大 70% のスパーシティを達成できた（Deja Vu, PowerInfer）（スライド5）。 - しかし Llama-3-8B や Phi-2-2.7B 等の**現代 LLM は GeLU / SiLU 活性化関数**を使い、パラメータ効率が高いため、ゼロ出力ニューロンがほぼ存在しない。Phi-2-2.7B では出力値の 79.1% が [0.01, 0.1) 区間に集中する（スライド6、論文 Figure 2）。 - 出力値の小さいニューロンを強制的に非活性化すると精度が大幅に劣化する。PIQA ベンチマークにおいて Llama-3-8B と Phi-2-2.7B はニューロンの 20% 未満を非活性化しただけでも大きな精度低下を示す（論文 Figure 3）。 ## 提案手法: 帰属ベーススパースアクティベーション - ニューロンの重要度を出力値の大きさではなく**モデル出力への寄与度（帰属スコア）**で評価し、寄与の低いニューロンを非活性化する（スライド7）。 - 帰属指標の候補: - **Integrated Gradients (IG):** $\frac{1}{n}\sum_{k=1}^{n}\partial F(\frac{k}{n}\cdot x)/\partial x \cdot x$。正確だが補間回数 >50 を要し計算コストが高い。 - **Gradient x Output (GxO):** $\frac{\partial F(x)}{\partial x}\cdot x$。1 回の forward + backward パスで計算でき、IG と同等の精度を達成する効率的な一次近似。 - **SNIP / Fisher Information:** 感度のみを考慮し方向を無視するため、GxO・IG より劣る。 - Phi-2 モデル + TruthfulQA ベンチマークの比較（論文 Figure 4）で、IG と GxO は低活性化率域で Magnitude や SNIP/Fisher を大きく上回る BLEU スコアを達成する。 ## 帰属スコアの相互依存性による誤差 - ニューロンの帰属スコアは**相互依存的**である。あるニューロンを非活性化すると、同一レイヤー内（intra-layer dependency）および後続レイヤー（inter-layer dependency）の他のニューロンの勾配・出力・帰属スコアが変化する（スライド8、論文 Figure 5）。 - この誤差により、本来重要なニューロンが低帰属と誤判定され、誤って非活性化されることでモデル出力が大幅に劣化する。 - Phi-2 モデルでの実測（論文 Figure 6）: - 帰属スコアの変化率は活性化率の低下とともに急激に増大する。活性化率 0.2 で MLP ニューロンの帰属スコア変化は約 500% に達する。 - MLP レイヤーの誤差はアテンションヘッドより桁違いに大きい（MLP は 10,240 個のニューロン vs. アテンションは 32 ヘッド）。 - 活性化率 20% では非活性化されるべきアテンションヘッドの True/Fake が大きく乖離する（論文 Figure 7）。 ## 補正項: Corrected GxO 指標 - 素朴な対策（非活性化のたびに全帰属スコアを再計算）は計算コストが高すぎる（Phi-2 の 32 レイヤーで 1.3 倍のコスト）。 - 本研究は**レイヤー間依存性に起因する帰属誤差の上界・下界を解析的に導出**し、それに基づく閉形式の補正項を提案する（スライド10、論文 §5）。 - **Lemma 5.1:** レイヤー $L_1$ のニューロン $i$ の非活性化による $L_2$ の帰属誤差は下界 0、上界 $|S(F, \mathbf{X}) - S(F, \tilde{\mathbf{X}})|$（$S$ は帰属スコアの総和）を持つ。 - **Lemma 5.2:** $L_1$ の帰属スコア総和 $S(F, \mathbf{X})$ は $L_2$ の帰属スコア総和 $S(h, g(\mathbf{X}))$ と等しい。 - **Theorem 5.3:** レイヤー間依存性による誤差の上界は $|x_i| \cdot \sqrt{\sum_{k=1}^{N_1}(\frac{\partial F}{\partial x_k})^2}$（ニューロン $i$ の出力値とレイヤー全勾配の L2 ノルムの積）。上界・下界ともにタイトである。 - 誤差分布は切断正規分布で良く近似され（平均 0.467、論文 Figure 9）、補正項のスケーリング係数は $\frac{1}{2}$ で十分である。 - **Corrected GxO の定義:** $\text{Corrected GxO} = \frac{\partial F}{\partial x_i} \cdot x_i + \frac{1}{2}|x_i| \cdot \sqrt{\sum_{k=1}^{N_1}\left(\frac{\partial F}{\partial x_k}\right)^2}$ - 第1項は標準 GxO、第2項がレイヤー間依存性を補正する項である。補正項はニューロンの出力値とレイヤー全体の勾配の L2 ノルムのみに依存するため、ベクトル化演算で一括計算でき追加コストは無視できる（スライド10）。 ## 実装 - PyTorch + Hugging Face Transformers 上に実装（論文 §6）。 - **勾配・帰属スコア計算:** 各 attention レイヤーと MLP レイヤーに forward hook を登録しニューロン出力を取得。MLP では活性化関数の出力、attention では SDPA 出力を抽出。次トークンの対数確率に対する勾配を backward パスで計算し、Corrected GxO スコアを算出する。 - **ニューロン非活性化の適用:** レイヤーごとの閾値で上位 fraction を活性化（Approach 1: レイヤー単位の固定活性化率）。Approach 2（全レイヤー共通閾値）より Approach 1 が一貫して高精度である（論文 Figure 10）。理由は補正項がニューロンの出力値・勾配に基づくためレイヤー間で値域が異なり、レイヤー横断の比較が不適切になるためである。 - **スパース計算:** 非活性化ニューロンに接続する重み列をゼロ化し `torch.sparse` 形式に変換、`torch.mm` によるスパース行列乗算を実行。これにより実際のレイテンシ・メモリ削減を達成する。 - **実用展開: 軽量プレディクタ（論文 §6）:** 毎トークンで backward パスを実行するのは現実的でないため、DejaVu・PowerInfer と同様に、少量の代表データで Corrected GxO パイプラインを実行してスパーシティマスクを収集し、それを教師ラベルとして軽量 MLP プレディクタを訓練する。推論時はプレディクタの forward パスのみで backward パスは不要である。 ## 実験結果 ### 実験設定 - **モデル:** Phi-2 (2.7B), Gemma-2B, MobiLlama-0.5B, Llama-3-8B, Qwen2.5-7B - **ハードウェア:** NVIDIA H100 80GB GPU - **ベンチマーク:** TruthfulQA（質問応答、817 QA ペア）、Gigaword（テキスト要約、1,951 サンプル）、Quora Question Pairs (QP)（言い換え、404k ペア）、WMT16-DE-EN（翻訳）、GLUE-MNLI（自然言語推論） - **評価指標:** BLEU, ROUGE-1, Accuracy - **ベースライン:** Magnitude, Gradient, SNIP/Fisher, IG, GxO（補正なし） - バッチサイズ = 1（オンデバイス推論を想定）、lm-evaluation-harness で評価 ### 推論精度（TruthfulQA、論文 Table 1、スライド13） - Corrected GxO は全モデル・全活性化率で最高または同等の BLEU スコアを達成する。 - **Llama-3-8B:** 活性化率 (AR) 40% で BLEU 24.48（100% 時 26.52）、精度損失 <5% でスパーシティ 60% を達成。AR=30% で BLEU 21.66。 - **Phi-2-2.7B:** AR=40% で BLEU 28.3（100% 時 33.9）、スパーシティ 60% で精度損失 <5%。AR=30% で BLEU 26.8。 - **Gemma-2B:** AR=30% で BLEU 5.29、スパーシティ 70% で精度損失 <5%（100% 時 10.72）。AR=50% で BLEU 8.04。 - **MobiLlama-0.5B:** AR=30% で BLEU 4.07（100% 時 5.45）、スパーシティ 70% で精度損失 <5%。 - 70% スパーシティ強制時、Corrected GxO はベスト・ベースラインに対し**少なくとも 30-40% の精度優位**を示す。 ### MLP レイヤー vs. アテンションレイヤー（論文 Table 2） - Phi-2 + TruthfulQA での層別分析: - **MLP レイヤー:** AR=20% で BLEU 22.7（Corrected GxO）、80% のニューロン非活性化でも精度損失は <5%。MLP はアテンションより冗長性が高い。 - **アテンションレイヤー:** AR=20% で BLEU 16.8。40% 以上のヘッド非活性化は精度を大幅に劣化させる。 - 理由: MLP ニューロン数（Phi-2 で 10,240）はアテンションヘッド数（32）より桁違いに多く、帰属ランキングの変動が小さい。 ### 複数ベンチマークでの汎化（論文 Table 3/4/6、スライド15） - Phi-2 + Gigaword: AR=30% で Corrected GxO は BLEU 2.60、最良ベースライン（GxO: 1.89）を 37% 上回る。 - Phi-2 + QP: AR=30% で Corrected GxO は BLEU 10.8、最良ベースライン（SNIP: 10.2）を上回る。 - MobiLlama-0.5B + TruthfulQA (ROUGE-1): AR=50% で Corrected GxO は 0.179、最良ベースライン（SNIP: 0.149）を 20% 上回る。 - **Qwen2.5-7B + WMT16-DE-EN:** AR=80% で Corrected GxO は BLEU 28.15（100% 時 48.68）、Magnitude (15.82) の 1.78 倍。 - **Qwen2.5-7B + GLUE-MNLI:** AR=80% で Corrected GxO は Accuracy 0.67（100% 時 0.77）、全ベースラインを上回る。 - 全ベンチマーク・全モデルで Corrected GxO が最良またはタイの結果を達成する（スライド15: "Best or tied-best metric in every case"）。 ### 計算レイテンシとメモリ削減（論文 Table 5、スライド14） - コールドスタート設定（モデルロード時間を含む end-to-end レイテンシ）で測定。 - **Phi-2 + TruthfulQA (AR=30%):** レイテンシ 1.06 秒（dense: 1.59 秒）→ **33% 削減**、メモリ 7.91 GB（dense: 13.76 GB）→ **43% 削減**。 - **Phi-2 + Gigaword (AR=30%):** レイテンシ 1.08 秒（dense: 1.58 秒）→ **32% 削減**、メモリ 7.74 GB（dense: 13.79 GB）→ **44% 削減**。 - **MobiLlama + TruthfulQA (AR=30%):** レイテンシ 1.11 秒（dense: 1.73 秒）→ **36% 削減**、メモリ 5.89 GB（dense: 10.69 GB）→ **45% 削減**。 - **Llama-3-8B + TruthfulQA (AR=30%):** レイテンシ 3.53 秒（dense: 6.22 秒）→ **43% 削減**、メモリ 19.36 GB（dense: 30.67 GB）→ **37% 削減**。 - AR=60% 以降で実質的なレイテンシ・メモリ削減が始まる（CSR/COO 形式のインデクシングオーバーヘッドのため）。AR<=50% で精度とリソースの良好なトレードオフが得られる。 - 一部モデルで AR=80-90% の精度が 100% を上回る現象が観測される。これは冗長ニューロンの帰属スコアが負となり、その非活性化がノイズ除去として作用するためである。 ## 議論と位置づけ - 本手法は量子化（演算あたりのコスト削減）とスパースアクティベーション（演算数の削減）が直交するため、W8A8 等と組合わせて加法的な効果が期待できる。LoRA、投機的復号、KV キャッシュ圧縮とも補完的である。 - オンラインプルーニングとの違い: オンラインプルーニングは重みを恒久的に除去するが、スパースアクティベーションは入力ごとに異なるニューロンを動的に選択するため、後続入力で同じニューロンを再利用できる。 - Phi モデルのパラレルトランスフォーマーブロック構造ではレイヤー間依存性の影響が小さく、Gemma・MobiLlama のシーケンシャル構造ではレイヤー間依存性が大きいため、Corrected GxO の補正項の効果がより顕著である。 ## まとめ - 現代 LLM（GeLU / SiLU 活性化）では出力値ベースの無損失スパースアクティベーションは適用できない。 - 帰属スコアは正しいシグナルだが、ニューロン間の相互依存性による誤差を補正する必要がある。 - レイヤー間依存性の誤差上界を解析的に導出し、GxO 指標への**閉形式補正項（Corrected GxO）**を提案した。 - Llama-3 / Phi-2 / Gemma / MobiLlama / Qwen2.5 の 5 モデルファミリー、QA・要約・言い換え・翻訳・NLI の 5 タスクにわたり、精度損失 <5% で最大 70% のスパーシティ、推論レイテンシ 35% 削減・GPU メモリ 40% 削減を達成する。