2026__MLSys2026__SpecDiff-2 Scaling Diffusion Drafter Alignment For Faster Speculative Decoding

# SpecDiff-2 — Scaling Diffusion Drafter Alignment For Faster Speculative Decoding > [!info] Talk metadata > - **会議:** [[MLSys2026]] Day 4 (May 21 / Thu)、Grand Ballroom 2、09:15 - 09:30 PDT > - **セッション名:** Research Track Oral — LLM Serving 5（Moderator: Xiang Song） > - **登壇者:** Jameson Sandler (University of Virginia) ※筆頭著者・equal contribution、スライド表紙で太字表記のため推定登壇者 > - **URL:** https://mlsys.org/virtual/2026/oral/3755 > - **OpenReview:** https://openreview.net/forum?id=o42VU86ZsV > - **共著者:** Jameson Sandler\*、Jacob K. Christopher\*、Thomas Hartvigsen、Ferdinando Fioretto（全員 University of Virginia, Department of Computer Science。\* は equal contribution。連絡先: Nando Fioretto <[email protected]>） > [!abstract] 概要（論文アブストラクト忠実訳） > 投機的復号（speculative decoding）は大規模言語モデル（LLM）の推論高速化における標準的アプローチとなっている。自己回帰復号のレイテンシを回避するため、ロスレスな draft-then-verify 手続きを活用し、顕著な高速化を達成する。しかし現行の投機的復号手法には二つの根本的ボトルネックが残る。**(1)** ドラフト時の自己回帰依存性が並列性を制限すること、**(2)** ドラフトモデルと検証モデルの不整合により、ドラフトトークンが頻繁に棄却されること、である。本論文はこれら二つのボトルネックを同時に解決する新しいフレームワーク SpecDiff-2 を提案する。非自己回帰ドラフタとして離散拡散モデルを活用してボトルネック (1) に対処し、離散拡散ドラフタを自己回帰検証器と整合させる新規手法を開発してボトルネック (2) に対処する。推論・コーディング・数学の包括的ベンチマークスイートにおける実験結果は、SpecDiff-2 が従来ベースラインに対し平均 +55% のトークン毎秒改善で新たな最先端を達成し、標準的復号に対して最大 5.5 倍の平均高速化を、精度劣化なしに実現することを示す。 ## 問題設定: 投機的復号の二つのボトルネック論文 Section 1–2、スライド pp.3–6。 - 投機的復号は小型のドラフトモデル $Q$ と大型のターゲット検証器 $P$ で構成される。ドラフタが高品質トークンを素早く生成できれば、1 回の検証サイクルで複数トークンが承認され、バニラ復号の出力を回復しつつエンドツーエンドレイテンシを削減する。 - 実際の高速化は二つの要因に依存する。**(1) ドラフタのレイテンシ:** ドラフト提案には追加時間がかかるため、ドラフタは検証器に対して高速でなければならない。**(2) ドラフタと検証器の整合度:** 不整合なドラフトは棄却されやすく、棄却点以降の再生成を強制される。 - スループットは inter-sequence（バッチ次元のスケーリング）と intra-sequence（系列長次元のスケーリング）の二軸で向上可能であり、投機的復号は後者を**ロスレスに**高める主要フレームワークである（スライド pp.3–4）。 - 投機的復号はテスト時スケーリング（推論時計算量拡大）においても重要である。推論スループットをロスレスに引き上げることで、同一ウォール時間予算でより多くの推論トークンを生成でき、タスク精度を向上させる（スライド p.5）。 - 強化学習においても、投機的復号は GPU 時間あたりのロールアウト数を増加させ、学習効率を高める（スライド p.6）。 ## 拡散言語モデルによる並列ドラフティング論文 Section 4、スライド pp.8–10。 - **自己回帰モデル (ARM) の制約:** トークンを逐次的に 1 個ずつ生成するため、GPU 利用率が低い。ドラフトウィンドウサイズ $\gamma$ に対してドラフト計算量が $\gamma$ に線形にスケールする。 - **拡散言語モデル (DLM) の利点:** マスクド離散拡散モデルはすべてのトークン位置を並列に生成する。ドラフト計算コストは $\gamma$ ではなくデノイジングステップ数に主に依存するため、低レイテンシで高スループットのドラフタとなる。 - **Speculative Diffusion (SpecDiff)** は自己回帰ドラフタを拡散ドラフタ $Q^{\text{diff}}$ に置き換えるパラダイムである（Christopher et al., NAACL 2025）。ドラフトウィンドウ $\gamma$ の [MASK] トークンに対し単一のデノイジングステップで位置ごとの周辺分布 $q_1, \ldots, q_\gamma$ を生成し、そこからサンプリングして関節提案 $\boldsymbol{x}_{1:\gamma}$ を得る。検証器 $P$ が左から右へロスレス承認規則を適用する。 - ただし拡散ドラフタは検証器との**整合を自動的には達成しない**。拡散モデルはデノイジング軌道全体にわたる同時分布を学習するのに対し、自己回帰検証器は因果的プレフィックスに紐づく局所的な次トークン条件付き分布を評価する。この二つの視点を整合させるメカニズムが必要である。 ## Streak-Distillation: 訓練時整合論文 Section 5.1、スライド pp.11–18。 - **受理確率と期待スループットの関係:** プレフィックス $\boldsymbol{s}$ とドラフトウィンドウ $\gamma$ に対し、期待承認トークン数は streak-equation で与えられる: $\frac{\text{Tokens}}{\text{Draft}}(\gamma, \boldsymbol{s}) = \mathbb{E}\Bigl[\sum_{m=1}^{\gamma} \prod_{j=1}^{m} \alpha_j(\boldsymbol{s} \circ \boldsymbol{x}_{1:j-1})\Bigr]$ ここで $\alpha_j$ は位置 $j$ の条件付き受理確率であり、先行する $j-1$ 個のトークンがすべて承認されている条件下での受理確率を意味する。 - **位置ごとの受理レートの不均一性:** AR スタイルの蒸留（AR-distillation）は各位置の受理確率を交換可能に扱い、プレフィックス直後の位置（$\alpha_1$）のみを最適化する。しかし拡散ドラフタでは位置ごとの整合レベルが大きく異なるため、ウィンドウ全体にわたる最適化が必要である（Figure 2: AR-distillation はドラフトインデックス $j$ が増大すると急速に劣化するが、streak-distillation はウィンドウ後方の位置で平均 3.2 倍高い受理確率を達成）。 - **受理確率のプロキシ:** greedy acceptance の下で位置 $i$ の受理確率は $\alpha_i = 1 - \frac{1}{2}\sum_{x_i \in \mathcal{V}} |P(x_i \mid \boldsymbol{s}) - Q(x_i \mid \boldsymbol{s})|$ と書け、これは DLM 事後分布と ARM 事後分布の全変動距離 (TV) に直結する。L1 誤差は DLM に関してほぼ至るところ微分可能であるため、期待スループットに対する勾配上昇法が可能となる。 - **Streak-distillation の目的関数（Definition 5.1）:** 検証器 $P$ を凍結し、拡散ドラフタ $Q^{\text{diff}}_\theta$ を以下で最適化する: $\max_\theta \Bigl[\frac{\text{Tokens}}{\text{Draft}}(\gamma, \boldsymbol{s}) = \mathbb{E}_{\boldsymbol{s}} \mathbb{E}_{\boldsymbol{x}_{1:\gamma} \sim P(\cdot|\boldsymbol{s})} \Bigl[\sum_{m=1}^{\gamma} \prod_{j=1}^{m} q_j(x_j \mid \boldsymbol{s}; \theta)\Bigr]\Bigr]$ この目的関数は承認の product-of-accepts 構造を保存し、各因子を検証器トークンで評価した greedy acceptance 項に置き換えたものである。理論的に重要な性質として、この目的関数は投機的復号の受理確率の下界を与える（$\alpha_{\text{SD}} \ge \alpha_{\text{greedy}}$、Theorem C.3）。 - **クロスエントロピ形式との関係:** 指数クロスエントロピ (expCE) のヒューリスティックな減衰係数 $\lambda$ を、streak-distillation の動的な位置重み付け $\prod_{j=1}^{m} \text{sg}(q_j)$ に置き換えることで、クロスエントロピの滑らかさと streak-distillation の理論的に動機づけられた重み付けを組み合わせた形式も導出できる（Equation 9）。 - **スケーラビリティ:** 訓練コストは 75 GPU 時間以下で、60,000 ステップの streak-distillation で約 30% のスピードアップ向上を達成（Figure 7）。Qwen2.5-72B 検証器では +32.3%、Qwen2.5-14B では +30.7% のスピードアップ向上が得られ、いずれも EAGLE-2 ベースラインを超過する。 ## Self-Selection Acceptance: テスト時整合論文 Section 5.2、スライド p.20、Figure 4。 - **拡散ドラフタ固有のマルチドラフト能力:** 単一のデノイジングステップで位置ごとの周辺分布 $q_1, \ldots, q_\gamma$ が得られ、独立サンプリングにより $K$ 個の関節ドラフト $\{\boldsymbol{x}^{(k)}\}_{k=1}^{K}$ をニューラルフォワードパスに対して無視できる追加コストで生成可能である。AR ドラフタでは $K$ パスのドラフティングに $N \propto \log(K \cdot \gamma)$ のブランチコストがかかるのに対し、拡散ドラフタでは $K$ に対して $O(1)$ の計算量でドラフト生成が完了する。 - **Self-selection メカニズム:** $K$ 個のドラフト候補の中から、検証器 $P$ に基づくストリーク指向のスコアで最良のドラフト $\boldsymbol{x}^{\max}$ を選択する: $\boldsymbol{x}^{\max} = \arg\max_k \frac{\text{Tokens}}{\text{Draft}}(\boldsymbol{x}^k, \boldsymbol{s})$ この選択は期待スループットを最大化するよう設計されている。検証器のトークンごとの事後確率 $\{p_j(x_j^k \mid \boldsymbol{s} \circ \boldsymbol{x}_{<j}^k)\}$ は tree attention を用いて全 $K$ ドラフトにわたり効率的に計算できる（Xiong et al., 2024）。 - **テスト時スケーリング（Figure 5）:** Math500 上で $K = 1, \ldots, 8$ とスケールさせた結果、$K$ の増加に伴い滑らかにスピードアップが向上する。$T = 2.0$ で最大の利得が得られ、$K = 8$ で最大 +20% の追加スループットを達成。低温度（$T = 0.1$）ではドラフト間の多様性が不足しスケーリング効果が小さい。温度 $T = 1.5$ が品質と多様性のバランスとして一貫した中間点を示す。 - **Greedy acceptance によるロスレス検証:** 選択された $\boldsymbol{x}^{\max}$ に対し greedy-acceptance 規則を適用する際、ランキングフェーズでキャッシュ済みの検証器確率を再利用できるため、検証は自明なコストで完了する。ドラフト確率は考慮されず、クロストークナイザや非校正拡散ドラフタにも対応可能である。 ## 実験設定論文 Section 6、Table 1。 - **検証器:** Qwen2.5-72B-Instruct、Qwen2.5-14B-Instruct、LLaMA-2-70B-chat、LLaMA-2-13B-chat。 - **拡散ドラフタ:** DiffuCoder-7B（Qwen2.5 トークナイザ、Gong et al. 2025）、DiffuLLaMA-7B（LLaMA-2 トークナイザ、Gong et al. 2024）。いずれも事前学習済みで、streak-distillation はファインチューニングとして適用される。ドラフタサイズは EAGLE の約 7 倍（7B vs 約 1B）。 - **AR ベースライン:** Speculative Sampling (SpS, Leviathan et al. 2023)、EAGLE (Li et al., 2024a)、EAGLE-2 (Li et al., 2024b)。 - **拡散ベースライン:** SpecDiff（未整合拡散ドラフタ、Christopher et al. 2025）。 - **ベンチマーク:** Math-500（数学推論）、HumanEval（コード生成）、GPQA（長文オープンエンド QA）。3 領域は受理特性が異なる: 数学はスパースサポート・高精度受理を要求、コードは構造化出力に正確性制約、QA は意味的多様性が高い。 - **ハードウェア:** A100 80GB GPU（70B+ モデルは 2 GPU）。全手法で同一プロンプト・停止基準・デコーディングパラメータを使用。 - **拡散ステップ数:** $T = 1$（単一ステップ）。ドラフタサイズが大きいため、複数ステップの収穫逓減はレイテンシ増加に見合わない（Appendix A.2）。 - **ウィンドウサイズ:** DiffuCoder は $\gamma = 32$、DiffuLLaMA は $\gamma = 16$。 ## 実験結果 ### ウォールクロックスピードアップと受理ストリーク論文 Section 7.1、Table 2。 - **SpecDiff-2 は全設定で最高スピードアップと最長受理ストリークを一貫して達成し、全設定平均 4.22 倍のスピードアップ**を報告する。EAGLE-2 に対して全設定で 30% 以上の改善。 - **温度 0 / Qwen2.5-72B:** Math-500 で **4.62 倍**（EAGLE-2: 3.16 倍）、HumanEval で **4.98 倍**（EAGLE-2: 3.16 倍）、GPQA で **3.28 倍**（EAGLE-2: 2.50 倍）。平均スピードアップ **4.29 倍**、平均受理ストリーク **5.98 toks**。 - **温度 0 / LLaMA-2-70B:** Math-500 で **3.61 倍**、HumanEval で **4.69 倍**、GPQA で **3.48 倍**。平均 **3.93 倍**。 - **温度 1 / Qwen2.5-72B:** Math-500 で **5.01 倍**、HumanEval で **5.51 倍**、GPQA で **2.65 倍**。平均 **4.39 倍**。 - **温度 1 / LLaMA-2-70B:** 平均 **3.54 倍**、受理ストリーク **5.98 toks**。 - **ドメイン依存性:** 数学とコードで最大のスピードアップ（平均 **4.71 倍**）。これはターゲット分布がより構造的に制約されている場合に拡散ドラフタが優位であることを示唆する。オープンエンド QA（GPQA）では意味的多様性が高く利得は縮小するが、それでも EAGLE-2 を 16–37% 上回る。 - **ロスレス性:** ロスレス復号方式により出力テキストの品質指標（PPL、BLEU 等）は検証器モデルと完全一致するため、省略されている。 ### テスト時スケーリングによる効率的推論論文 Section 7.2、Figure 6。 - Qwen2.5-72B-Instruct に CoT プロンプトを適用し、Math500 でウォール時間予算 $b$ 秒以内に推論を完了させた結果を報告。 - **SpecDiff-2 による加速版 Qwen2.5-72B は、推論予算 15 秒の制約下でベースモデル（バニラ復号）に対して +63% の精度向上**を達成（Figure 6 左）。未整合 SpecDiff に対しても +11% の追加精度向上。 - 加速計算量（streak-distillation ステップ数の増加、テスト時 self-selection、投機的拡散の利用）の投入がいずれもウォール時間制約下での精度向上に単調に寄与する（Figure 6 右: SpecDiff → SpecDiff-2(30k) → SpecDiff-2(60k) → SpecDiff-2 で 0.55 → 0.81 → 0.86 → 0.90）。 - この結果は「加速計算量（acceleration compute）」を性能スケーリングの新たな実用的ノブとして位置づけ、構造化された CoT ワークロードに SpecDiff-2 が特に適していることを示す。 ### 訓練時・テスト時スケーリングのアブレーション論文 Section 7.3、Table 3、Figure 7。 - **SpecDiff → SpecDiff-2（streak-distillation 単体の効果、Table 3）:** Qwen2.5-72B で 3.19 倍 → **4.62 倍（+44.8%）**、Qwen2.5-14B で 2.51 倍 → **3.65 倍（+45.5%）**。 - **訓練時スケーリング（Figure 7）:** streak-distillation ステップ数に対しスピードアップが単調に向上。Qwen2.5-72B 検証器で最大 +32.3%、Qwen2.5-14B で最大 +30.7% のスピードアップ向上。いずれも EAGLE-2 ベースラインを超過。訓練コストは 75 GPU 時間以下。 - **テスト時スケーリング（Figure 5）:** 訓練時の約 +30% スピードアップに加え、テスト時アルゴリズム（self-selection）が追加で約 +15% のスピードアップ向上を提供。結果として未整合 SpecDiff に対し合計 40–50% の性能改善。 - **Streak-distillation vs DistillSpec（Figure 12）:** 同一訓練ステップ数（40k、約 50 GPU 時間）で比較した場合、streak-distillation は DistillSpec を +35% 上回る。DistillSpec は位置ごとの理論的重要度を無視するため、理論的スループットとの乖離が生じる。 ### 推論計算効率論文 Section 7.4、Table 4–5。 - **VRAM 使用量（Table 4）:** SpecDiff-2（$k = 1$、32 トークン/ステップ）vs Eagle（60 トークンのドラフトツリー）。Qwen2.5-72B で SpecDiff-2 は 149.77 GiB、Eagle は 135.57 GiB（差は主にドラフタサイズに起因）。Qwen2.5-14B では SpecDiff-2 が 41.67 GiB vs Eagle 27.47 GiB。モデルサイズ増加に伴いギャップは縮小する見込み。 - **FLOPS（Table 5）:** Qwen2.5-72B で SpecDiff-2 は $5.06 \times 10^{14}$、Eagle は $8.78 \times 10^{14}$。Qwen2.5-14B でも同様に SpecDiff-2 が低い。SpecDiff-2 のスピードアップ優位は、Eagle が高コストなドラフトツリー検証を必要とするのに対し、拡散ドラフタがより良い予測を生成しツリー構築を不要にすることに起因する。 ### レイテンシ分析論文 Section 7.6、Table 6。 - DiffuCoder-7B のフォワードレイテンシはドラフトウィンドウ $\gamma$ に対しほぼ一定: $\gamma = 8$ で 36.13 ms、$\gamma = 16$ で 36.13 ms、$\gamma = 32$ で 37.83 ms、$\gamma = 64$ で 38.77 ms。コンテキスト長 256、A6000 GPU 上で測定。 - $\gamma = 16$ かつコンテキスト 256 トークンまでは単一 A6000 GPU のフル利用に達せず、拡散レイテンシへの影響は最小限。ハードウェアスループット飽和に達した場合にのみレイテンシが増加し始める。 - マルチドラフトフレームワークにより $K$ 個の追加ドラフトも無視できるレイテンシオーバーヘッドで生成可能。 ## 今後の課題と限界論文 Section 9。 - **受理規則の設計空間:** 本研究で提案した greedy-acceptance は一つの選択肢にすぎない。代替規則の形式的分析（バイアス/バリアンストレードオフ、ミスキャリブレーション下の最悪ケース、検証器温度との相互作用）は未解決。 - **クロスファミリ・クロストークナイザのドラフティング:** greedy-acceptance は異種ドラフタと非対応トークナイザを自然にサポートする。同一ファミリ対に限らない体系的研究が次のステップとなる。 - **専門化ドラフタの混合:** self-selection メカニズムを拡張し、$K$ 個の異なる専門化ドラフタ（数値計算向け、コード向けなど）からテスト時に選択する構想がある。多様性–整合トレードオフ、コスト考慮の選択ポリシー、$K$・温度・提案深度への計算予算配分が未解決。 - **拡散ドラフタの最適サイズ:** AR ドラフタではサイズ選択が確立されているが、拡散ドラフタでは並列ドラフティング特性により最適サイズが異なる可能性がある。$\gamma$・受理率・検証器サイズの関数としてのスケーリング則の導出が今後の方向性。 - **ハードウェア最適化:** 半自己回帰推論向けの効率的カーネル、$\gamma$ 長拡散ドラフトの KV キャッシュサポートが不足している。