# マルチトークン予測
## 定義
マルチトークン予測(Multi-Token Prediction, MTP)は、標準的な次トークン予測に加えて複数の未来トークンを同時に予測する訓練目的関数である。訓練信号を密にしてデータ効率を向上させるとともに、モデルが将来のトークン予測に備えた表現を事前に計画できるようにする。推論時には MTP モジュールを破棄して主モデル単体で動作させるか、投機的復号(speculative decoding)に転用して生成速度を向上させることができる。(Source: [[@2024__arXiv__DeepSeek-V3 Technical Report]] §2.2)
[[DeepSeek-V3]] の実装では $D = 1$(1 つの追加トークンを予測)に設定し、逐次的な MTP モジュールで因果連鎖を保持する。各モジュールは共有エンベディング層、共有出力ヘッド、Transformer ブロック、線形射影行列からなる。Gloeckle+ (2024) の並列予測とは異なり、各予測深度で完全な因果連鎖を維持する設計をとる。
## 横断的知見
(他のソースとの突き合わせで見えた観察を蓄積する。現在 1 ソース目。)
## 未解決の問い
- MTP の予測深度 $D$ を 1 より大きくした場合($D = 2, 3, ...$)の訓練コスト対性能のトレードオフはどうなるか。DeepSeek-V3 は $D = 1$ のみで検証しており、深い MTP の効果は未実証
- MTP は訓練時の信号密度向上と推論時の投機的復号という 2 つの利点を主張するが、両者の寄与の分離(訓練性能向上の何割が MTP 目的関数由来で、何割が表現の事前計画由来か)は未検証
- MTP の第 2 トークン受容率 85〜90% は生成トピックによってばらつくが、ドメイン(コード・数学・自然言語)による受容率の体系的な差異の分析は限定的
- MTP モジュールの投機的復号への転用は EAGLE の設計に類似するが、訓練目的関数として使った MTP モジュールと、投機的復号専用に訓練されたドラフトモデルの性能差はどこにあるか
## 関連
- ソース: [[@2024__arXiv__DeepSeek-V3 Technical Report]]
- 概念: [[LLM推論]] / [[Mixture-of-Experts]]
- エンティティ: [[DeepSeek-V3]] / [[DeepSeek-AI]]
## 出典
- [[@2024__arXiv__DeepSeek-V3 Technical Report]](§2.2 Multi-Token Prediction、§4.5.1 アブレーション、§5.4.3 投機的復号評価)