2026__MLSys2026__TiDAR Think in Diffusion Talk in Autoregression

# TiDAR: Think in Diffusion, Talk in Autoregression > [!info] Talk metadata > - **会議:** [[MLSys2026]] Day 2 (May 19 / Tue)、Grand Ballroom 2、14:00 - 14:15 PDT > - **登壇者:** Jingyu Liu（NVIDIA） > - **共著者:** Xin Dong, Zhifan Ye, Rishabh Mehta, Yonggan Fu, Vartika Singh, Jan Kautz, Ce Zhang, Pavlo Molchanov（NVIDIA） > - **URL:** https://mlsys.org/virtual/2026/oral/3751 > - **OpenReview:** https://openreview.net/forum?id=onfxEjoE4L > - **関連研究:** https://tidarlm.github.io > - **arXiv:** https://arxiv.org/abs/2511.08923v1 > [!abstract] 概要（MLSys サイト） > 拡散言語モデル（Diffusion LM）は高速な並列生成を実現しうるが、自己回帰（AR）モデルは因果構造が言語モデリングに自然に適合するため品質面で優位に立つ。本研究は「高スループット・高 GPU 利用率・AR 水準の品質」を同時に達成できるかという根本的な問いに取り組む。既存手法は投機的復号（Speculative Decoding）のように AR 優先で弱いモデルを逐次ドラフトに用いてドラフト効率が低下するか、拡散モデルに左から右への AR 風復号ロジックを適用して品質劣化と並列性の放棄を招くかのいずれかであり、両側面の効果的な均衡に失敗していた。本研究では TiDAR を提案する。TiDAR はシーケンスレベルのハイブリッドアーキテクチャであり、トークンのドラフト（Thinking）を拡散で、最終出力のサンプリング（Talking）を自己回帰で行い、特別に設計された構造化アテンションマスクを用いて単一のフォワードパス内で両者を実行する。この設計は GPU 上の空き計算密度を活用し、ドラフトと検証の容量を強く均衡させる。さらに TiDAR はスタンドアロンモデルとしてサービング親和的に設計されている。1.5B および 8B スケールで AR モデル・投機的復号・拡散変種に対し、生成タスクと尤度タスクの双方で広範に評価した。並列ドラフトとサンプリング、および効率的な厳密 KV キャッシュ対応により、TiDAR は投機的復号を実測スループットで上回り、Dream や LLaDA といった拡散モデルを効率と品質の両面で凌駕する。特筆すべきは、TiDAR が AR モデルとの品質差を埋めつつ毎秒 4.71 倍から 5.91 倍のトークンを生成する初のアーキテクチャである点である。 ## 問題設定 - AR モデルは自己回帰の因果構造により言語モデリング品質に優れるが、1 トークンずつ逐次生成するためメモリ律速領域（特に小バッチ）で GPU 演算資源を十分に活用できない - 離散マスク拡散言語モデル（DLLM）は並列復号を約束するが、1 回のフォワードで生成するトークン数を増やすほど品質が劣化し、厳密な KV キャッシュも困難で追加計算を要する - 既存の投機的復号（Classic Spec Decoding, EAGLE-3, DeepSeek-V3 MTP, APD など）はドラフトモデルの容量・並列性・検証との同時実行性のいずれかを犠牲にする - **核心的な問い:** 拡散の並列性と AR の品質を単一モデル・単一フォワードパスで両立できるか ## 提案手法 ### フリートークンスロットの着想 - 現代 GPU では、小バッチサイズにおいて 1 トークンを復号するレイテンシと K トークンを復号するレイテンシがほぼ同等になる領域がある（MLP・アテンション双方で確認） - この「フリートークンスロット」を活用し、追加レイテンシなしにドラフトトークンを並列生成する（append-prefill 操作と類似の原理） ### TiDAR アーキテクチャ - **シーケンスレベルのハイブリッド構造:** 入力シーケンスを「クリーンプレフィックス」と「追加マスクトークン」に分割し、1 回のフォワードパスで以下を同時実行する - **Thinking（ドラフト）:** 拡散により複数のドラフトトークン候補を並列に生成 - **Talking（サンプリング）:** 自己回帰により最終出力トークンを確定 - **構造化アテンションマスク:** AR 損失と拡散損失を単一パスで同時に計算可能にする専用の訓練マスクを設計。破損シーケンスを完全マスクとする点が SBD や Block Diffusion と異なる - **訓練損失:** $\mathcal{L}_{TiDAR}(\theta) = \frac{1}{1+\alpha}\left(\sum_{i=1}^{S-1}\frac{\alpha}{S-1}\cdot\mathcal{L}_{AR}(x_i, x_{i+1};\theta) + \sum_{i=1}^{S-1}\frac{1}{S-1}\cdot\mathcal{L}_{Diff}([mask], x_i;\theta)\right)$ - AR 損失と拡散損失の損失トークン数が等しいため、等分散性（equi-variance）により容易にバランスが取れる。複雑なマスク戦略の設計も不要 - **厳密 KV キャッシュ対応:** AR 部分のキャッシュが厳密に再利用可能で、追加計算なしに機能する ### 推論パイプライン 1. プレフィックストークンと前ステップでドラフトされたトークンを入力として構成 2. 単一フォワードで AR による検証出力と、複数のドラフト提案（拡散による並列生成）を同時に得る 3. 検証で棄却されたトークン以降を破棄し、受理されたトークンから次のドラフトへ進む 4. フリートークンスロットを用いて次ステップ用のドラフトも事前生成する（Pre-Drafted For Next Step） ### 既存手法との比較（投機的復号との位置づけ） | 特性 | Classic Spec Decoding | APD | EAGLE-3 / DeepSeek-V3 | Apple MTP | **TiDAR** | |---|---|---|---|---|---| | ベースモデルと共有 | 不可 | 不可 | 部分共有 | 部分共有 | **完全共有** | | ドラフト容量 | 低 | 高（弱い検証器） | 中 | 中 | **高** | | 並列復号 | 不可 | 可 | 不可 | 不可 | **可** | | 検証と並列実行 | 不可 | 不可 | 不可 | 可 | **可** | ### 訓練設定 - Qwen シリーズから初期化（Qwen2.5 1.5B / Qwen3 8B） - 全重み継続事前学習: 1.5B で 50B トークン、8B で 150B トークン ## 実験・評価 ### 尤度評価（Table 3） - **MMLU:** TiDAR 8B は 76.57% を達成し、Qwen3 8B の 76.93% とほぼ同等。Dream 7B（67.00%）や LLaDA 8B（65.86%）を大幅に上回る - **常識推論平均:** TiDAR 8B は 75.40% で、Qwen3 8B（74.25%）を上回り、Block Diff 4B（70.00%）、Dream 7B（71.86%）、LLaDA 8B（68.06%）を凌駕 - **1.5B スケール:** TiDAR 1.5B は平均 64.43% で、Block Diff 1.5B（61.05%）を上回り、Qwen2.5 1.5B（65.16%）に迫る - アテンションマスクを因果マスクに設定するだけで AR モードとして尤度を直接評価可能（モンテカルロサンプリング不要） ### 生成評価（Table 2） - **コーディング:** TiDAR 8B（Trust Diff モード）は HumanEval 57.93%、HumanEval+ 55.49% を達成し、1 フォワードあたり平均 7.29-7.30 トークンを生成。LLaDA 8B（32.32%）、Dream 7B（54.88%）を上回る - **数学:** TiDAR 8B（Trust Diff）は GSM8K 80.44%、Minerva Math 51.64% で、Block Diff 4B を上回り Qwen3 8B に迫る - **平均:** TiDAR 8B（Trust Diff）は 65.31%（平均 8.25 T/NFE）で AR の Qwen3 8B（68.09%）との差を大幅に縮小 - **1.5B スケール:** TiDAR 1.5B は平均 44.03%（平均 7.45 T/NFE）で、Block Diff 1.5B（38.41%）を上回る ### SGLang 上の実測スループット（スライド 15） - 単一 H100 上で SGLang を用い TiDAR 8B のデコードスループットを測定（CUDA Graph なし） - **HumanEval:** AR 比 5.07 倍、EAGLE-v3 比 2.65 倍超（T/NFE = 6.98） - **MBPP:** AR 比 5.80 倍、EAGLE-v3 比 2.47 倍超（T/NFE = 8.34） - **GSM8K:** AR 比 5.71 倍、EAGLE-v3 比 2.54 倍超（T/NFE = 8.51） - **Minerva Math:** AR 比 4.75 倍、EAGLE-v3 比 2.71 倍超（T/NFE = 7.94） ### 効率・品質トレードオフ（Figure 4） - 1.5B・8B の両スケールで、ドラフト長（ブロックサイズ = 4, 8, 16）を調整した際の品質対スループット高速化率を AR・EAGLE-3・Block Diffusion と比較 - TiDAR は品質をほぼ維持しつつ最大の相対高速化を実現し、パレート最適の位置を占める ## 制約と今後の課題 - **バッチサイズ:** 実験はバッチサイズ 1 で実施（DLLM のトークン/秒比較の標準設定）。より大きなバッチサイズへはドラフト（ブロック）長をゼロショット的に調整することで対応可能 - **長コンテキスト拡張:** 現在の実装は訓練時にマスクトークン追加でシーケンス長が 2 倍になる。長コンテキストではメモリ律速の度合いが下がり TiDAR の優位性が薄まる可能性がある - **システム最適化:** 将来的にはカスタムアテンションカーネルやスケジューリングアルゴリズムにより、対象ハードウェア固有のフリートークンスロット活用を最大化する余地がある - **サービングスペクトラム上の位置づけ:** AR（高総スループット）と投機的復号（中間）の先に、TiDAR は低リクエストレイテンシ寄りに位置する ## 結論 - TiDAR は拡散による並列ドラフトと AR による逐次検証を単一モデル・単一フォワードパスで統合するシーケンスレベルのハイブリッドアーキテクチャである - GPU 上のフリートークンスロットを活用し、追加レイテンシなしに並列ドラフトを実現する - AR モデルとの品質差を実質的に解消しつつ、SGLang 上で AR 比最大 5.80 倍・EAGLE-v3 比最大 2.71 倍のデコードスループットを達成した - Dream・LLaDA 等のオープンソース DLLM を品質・速度の両面で上回る - 厳密 KV キャッシュを追加計算なしにサポートし、尤度評価も AR モードで直接実行可能な、サービング親和的な設計を実現した