マルチトークン予測 - yuuk1's Digital Garden

# マルチトークン予測 ## 定義マルチトークン予測（Multi-Token Prediction, MTP）は、標準的な次トークン予測に加えて複数の未来トークンを同時に予測する訓練目的関数である。訓練信号を密にしてデータ効率を向上させるとともに、モデルが将来のトークン予測に備えた表現を事前に計画できるようにする。推論時には MTP モジュールを破棄して主モデル単体で動作させるか、投機的復号（speculative decoding）に転用して生成速度を向上させることができる。(Source: [[@2024__arXiv__DeepSeek-V3 Technical Report]] §2.2) [[DeepSeek-V3]] の実装では $D = 1$（1 つの追加トークンを予測）に設定し、逐次的な MTP モジュールで因果連鎖を保持する。各モジュールは共有エンベディング層、共有出力ヘッド、Transformer ブロック、線形射影行列からなる。Gloeckle+ (2024) の並列予測とは異なり、各予測深度で完全な因果連鎖を維持する設計をとる。 ## 横断的知見 - **OCR タスクが MTP の効果を最大化するドメイン特性を持つ**: DeepSeek-V3 は MTP を汎用テキスト生成の訓練効率向上と投機的復号への転用として提案した(Source: [[@2024__arXiv__DeepSeek-V3 Technical Report]])。GLM-OCR はこれを OCR に適用し、パラメータ共有ドラフトヘッドにより GPU メモリオーバーヘッドを低減しながら平均 5.2 トークン/ステップ(約 50% スループット向上)を達成した。**OCR は局所依存性が高く構造トークン(表タグ・Markdown 構文)の系列パターンが強いため MTP の受容率が高い**。これは汎用テキスト生成より OCR が MTP を活用しやすいドメインであることを示唆する。(Source: [[@2026__arXiv__GLM-OCR Technical Report]]) - **パラメータ共有 MTP ヘッドがメモリオーバーヘッドを削減する**: DeepSeek-V3 は各 MTP モジュールを独立した Transformer ブロックとして実装したが(出力ヘッドと埋め込み層のみ共有)、GLM-OCR は k 個の補助ヘッドがすべて同一パラメータを共有する設計を採用した。これにより GPU メモリの追加コストを最小化しながらスループット向上を得た。どちらの設計が性能/メモリ効率で優れるかはタスクとスケールに依存する可能性がある。(Source: [[@2026__arXiv__GLM-OCR Technical Report]] / [[@2024__arXiv__DeepSeek-V3 Technical Report]]) ## 未解決の問い - MTP の予測深度 $D$ を 1 より大きくした場合（$D = 2, 3, ...$）の訓練コスト対性能のトレードオフはどうなるか。DeepSeek-V3 は $D = 1$ のみで検証しており、深い MTP の効果は未実証 - MTP は訓練時の信号密度向上と推論時の投機的復号という 2 つの利点を主張するが、両者の寄与の分離（訓練性能向上の何割が MTP 目的関数由来で、何割が表現の事前計画由来か）は未検証 - MTP の第 2 トークン受容率 85〜90% は生成トピックによってばらつくが、ドメイン（コード・数学・自然言語）による受容率の体系的な差異の分析は限定的 - MTP モジュールの投機的復号への転用は EAGLE の設計に類似するが、訓練目的関数として使った MTP モジュールと、投機的復号専用に訓練されたドラフトモデルの性能差はどこにあるか ## MTP の推論活用進化(2025-2026) MTP は当初「訓練効率向上のみ」で推論時は廃棄される設計だったが、モデルが大規模化するにつれて推論時の投機的デコーディングへの統合が進んでいる。 - **DeepSeek-V3**: MTP は訓練専用。投機的デコーディングには未転用(設計段階では「転用できる」と言及)。([[@2024__arXiv__DeepSeek-V3 Technical Report]]) - **Qwen3-Next**: MTP モジュールを**投機的デコーディングに本格的に活用**。マルチステップ訓練で訓練・推論間の一貫性を確保し受容率を高める設計。([[Qwen3-Next]]) - **Nemotron 3 Super**: 共有重み MTP ヘッドを**内部ドラフトモデル**として使用。外部ドラフトモデル不要の「ネイティブ投機的デコーディング」を実現。通常の MTP(個別 Transformer ブロック)と異なり共有重みのため追加メモリコストが最小。([[Nemotron 3]], [[The-Big-LLM-Architecture-Comparison|The Big LLM Architecture Comparison]]) 訓練補助信号 → 推論時廃棄 → 推論時ドラフトモデルとしての活用という 3 段階の進化が見られる。Nemotron 3 Super の「共有重み MTP ヘッド = 内部ドラフトモデル」設計は外部 EAGLE との比較が今後の研究課題。(Source: [[The-Big-LLM-Architecture-Comparison|The Big LLM Architecture Comparison]]) ## 関連 - ソース: [[@2024__arXiv__DeepSeek-V3 Technical Report]] / [[@2026__arXiv__GLM-OCR Technical Report]] - 概念: [[LLM推論]] / [[Mixture-of-Experts]] / [[光学文字認識]] / [[文書理解]] / [[ビジョン言語モデル]] - エンティティ: [[DeepSeek-V3]] / [[DeepSeek-AI]] / [[Zhipu AI]] ## 出典 - [[@2024__arXiv__DeepSeek-V3 Technical Report]]（§2.2 Multi-Token Prediction、§4.5.1 アブレーション、§5.4.3 投機的復号評価） - [[@2026__arXiv__GLM-OCR Technical Report]]（パラメータ共有ドラフトヘッド設計と OCR ドメイン特性に基づく受容率分析)