@2025__DeepSeek__DeepSeek-V4 - Towards Highly Efficient Million-Token Context Intelligence

# DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence > [!abstract] 概要 > DeepSeek-V4 シリーズは、100 万トークンのコンテキスト長を効率的に処理するために設計された MoE 言語モデルである。Pro（1.6T パラメータ/49B 活性化）と Flash（284B パラメータ/13B 活性化）の 2 モデルを提供する。圧縮疎アテンション（CSA）と高圧縮アテンション（HCA）のハイブリッド構成、多様体制約付きハイパーコネクション（mHC）、Muon オプティマイザの導入により、超長コンテキストの計算効率を劇的に改善した。100 万トークン設定で DeepSeek-V3.2 比 FLOPS 27%・KV キャッシュ 10%（Pro）に削減し、DeepSeek-V4-Pro-Max はオープンモデルの最先端性能を更新する。 ## 論文情報 - **著者**: DeepSeek-AI - **発表**: 2025 年（プレビュー版） - **モデル公開**: HuggingFace（`deepseek-ai/deepseek-v4`） - **ソース**: [[@2024__arXiv__DeepSeek-V3 Technical Report]] の後継 ## 概要 DeepSeek-V4 シリーズは DeepSeek-V3 アーキテクチャを発展させ、100 万トークンコンテキストの効率的な処理を実現した次世代 MoE 言語モデルである。2 つのモデルを含む。 - **DeepSeek-V4-Pro**: 1.6T 総パラメータ、49B 活性化、61 層、隠れ次元 7168、384 ルーティングエキスパート + 1 共有エキスパート、トークンあたり 6 エキスパート活性化 - **DeepSeek-V4-Flash**: 284B 総パラメータ、13B 活性化、43 層、隠れ次元 4096、256 ルーティングエキスパート + 1 共有エキスパート、トークンあたり 6 エキスパート活性化両モデルとも 32T+ トークンで事前学習され、包括的な事後学習パイプラインを経てリリースされる。 ## 問題設定推論モデルの登場によりテスト時スケーリングのパラダイムが確立されたが、バニラアテンション機構の二次計算量がこのスケーリングの根本的な制約となっている。エージェント型ワークフローや大規模クロスドキュメント解析といった長期的タスクの台頭も、超長コンテキストの効率的な処理を不可欠にしている。DeepSeek-V4 はこの効率障壁を突破し、100 万トークンコンテキストを日常的に利用可能にすることを目指す。 ## 提案手法 ### アーキテクチャの進化（DeepSeek-V3 からの変更点） **1. ハイブリッドアテンション（CSA + HCA）** 超長コンテキストの効率化の中核。2 種類のアテンション機構をインターリーブ配置する。 - **Compressed Sparse Attention（CSA）**: KV キャッシュを $m=4$ トークンごとに 1 エントリに圧縮し、さらに DeepSeek Sparse Attention（DSA）で top-k 選択する。Lightning Indexer がインデックススコアを FP4 精度で計算し、選択を高速化する。圧縮には重み付き加重平均を使い、隣接ブロック間でオーバーラップ圧縮を行う。共有 KV の Multi-Query Attention とグループ化出力射影を採用する。 - **Heavily Compressed Attention（HCA）**: $m'=128$ トークンごとに 1 エントリに圧縮する、より積極的な圧縮。スパースアテンションは使わず密アテンションを維持する。 - 両方にスライディングウィンドウアテンション（$n_{\text{win}}=128$）を補助ブランチとして追加し、局所依存性を保持する。 - アテンションシンクにより各クエリヘッドの総アテンションスコアを 1 未満に調整可能にする。 - 部分的 RoPE（最後の 64 次元のみ）を適用し、コアアテンション出力にも逆 RoPE を適用して相対位置情報を維持する。 **2. 多様体制約付きハイパーコネクション（mHC）** 残差接続を $n_{\text{hc}}=4$ 倍に拡張し、残差変換行列 $B^l$ を二重確率行列の多様体（Birkhoff ポリトープ）上に制約する。これによりスペクトルノルムが 1 以下に保たれ、深い層の積み重ねでも信号伝播が安定する。動的パラメータ生成（入力依存成分 + 静的成分）と Sinkhorn-Knopp アルゴリズム（20 反復）による射影を組み合わせる。 **3. Muon オプティマイザ** ほぼ全モジュールに Muon を適用（埋め込み・予測ヘッド・RMSNorm は AdamW を維持）。ハイブリッド Newton-Schulz 反復（前半 8 ステップで高速収束、後半 2 ステップで精密安定化）により直交化を行う。MoE パラメータには独立した最適化と BF16 精度での勾配同期を適用する。 **4. MoE の調整** DeepSeekMoE を継承しつつ、アフィニティスコアの活性化関数を Sigmoid から $\sqrt{\text{Softplus}(\cdot)}$ に変更した。初期層（最初の 3 層）の密 FFN を Hash ルーティングの MoE 層に置き換えた。ルーティング先ノード数の制約を撤廃した。 ### 訓練インフラの革新 **1. 細粒度エキスパート並列化** 計算と通信を単一のパイプラインカーネルに融合し、エキスパートをウェーブに分割してスケジューリングする。通信レイテンシを計算に隠蔽し、DeepSeek-V4-Pro で計算通信比 6,144 FLOPS/Byte を達成する。一般的推論ワークロードで 1.50〜1.73 倍、レイテンシ敏感なシナリオで最大 1.96 倍の高速化を実現する。MegaMoE として DeepGEMM の一部でオープンソース化された。 **2. TileLang によるカーネル開発** DSL（ドメイン固有言語）を用いた融合カーネル開発。ホストコード生成で呼び出しオーバーヘッドを数十〜数百マイクロ秒から 1 マイクロ秒未満に削減する。Z3 SMT ソルバを統合した形式的整数解析により最適化を強化する。 **3. バッチ不変・決定性カーネル** 事前学習・事後学習・推論のパイプライン間でビット単位の再現性を保証する。アテンション逆伝播では SM ごとの蓄積バッファと決定性グローバル加算を使用する。DeepGEMM で cuBLAS を全面置換する。 **4. 訓練フレームワーク最適化** - Muon 用 ZeRO のハイブリッドバケット割り当て（密パラメータはナップサック、MoE はフラット化） - mHC の再計算戦略と融合カーネル（壁時間オーバーヘッド 6.7%） - 2 段階コンテキスト並列化（境界 KV エントリの送信 + 圧縮 KV の All-Gather） - テンソルレベルのアクティベーションチェックポイント（TorchFX ベースの最小部分グラフ自動特定） **5. 推論フレームワーク** - 異種 KV キャッシュレイアウト（ステートキャッシュ + 圧縮 KV キャッシュ） - オンディスク KV キャッシュ（完全 SWA キャッシュ / 周期チェックポイント / ゼロ SWA キャッシュの 3 戦略） - KV エントリの混合精度格納（RoPE 次元は BF16、その他は FP8） ### 事後学習パイプライン **1. スペシャリスト訓練** ドメインごと（数学・コーディング・エージェント・指示追従）に独立したエキスパートモデルを SFT + GRPO で訓練する。3 つの推論努力モード（Non-think / Think High / Think Max）を個別の RL 構成で訓練する。生成報酬モデル（GRM）により、従来のスカラー報酬モデルを廃止した。 **2. On-Policy Distillation（OPD）** 10 以上の教師モデルから単一の生徒モデルへ、全語彙逆 KL 損失で知識を統合する。教師の隠れ状態をキャッシュし、必要時にロジットを再構成する効率的なスケジューリングを実現した。 **3. FP4 量子化対応訓練（QAT）** MoE エキスパート重みと CSA インデクサの QK パスに FP4（MXFP4）量子化を適用する。FP4→FP8 の逆量子化はロスレスであり、既存の FP8 訓練フレームワークを再利用可能にする。 **4. その他の工学的革新** - プリエンプティブル・耐障害性ロールアウトサービス（トークン粒度の WAL） - 100 万トークンコンテキスト向け RL フレームワーク（メタデータ/重量フィールドの分離、共有メモリデータローダ） - DeepSeek Elastic Compute（DSec）サンドボックス基盤（4 種の実行基盤: Function Call / Container / microVM / fullVM） **Figure 5: ワークフロー** ![[_attachments/DeepSeek_V4/fig5-workflow.png]] (Figure 5. This forms a fine-grained pipeline among experts, keeping both computation and communication continuous throughout the w に関する処理フローを示す。) ## 新規性 1. **ハイブリッド圧縮アテンション**: CSA（圧縮+スパース）と HCA（高圧縮+密）のインターリーブ構成は、KV キャッシュを BF16 GQA8 比約 2%、DeepSeek-V3.2 比約 10% に圧縮する。100 万トークンコンテキストの実用化を初めて可能にした。 2. **mHC**: 二重確率行列制約による残差接続の安定化は、スペクトルノルム ≤1 の保証を持つ初の大規模適用であり、訓練安定性を向上させる。 3. **Muon の大規模 MoE 適用**: 1.6T パラメータ MoE への Muon 適用は最大規模。ZeRO との統合やハイブリッド Newton-Schulz 反復、BF16 勾配同期により実用化した。 4. **通信計算完全オーバーラップ EP**: ウェーブベースの細粒度パイプラインにより、MoE のエキスパート並列化で通信レイテンシを計算に完全に隠蔽する。 5. **OPD による混合 RL 代替**: 複数ドメインのスペシャリストモデルを全語彙ロジット蒸留で統合し、混合 RL 訓練を完全に置き換えた。 ## 実験設定 - **事前学習**: Flash は 32T トークン、Pro は 33T トークン。系列長は 4K→16K→64K→1M に段階的拡張。密アテンションで開始しスパースアテンションを後半に導入。 - **事後学習**: GRPO によるドメイン特化 RL + OPD による統合。推論努力モード 3 種（Non-think / High / Max）。 - **評価**: 知識（MMLU-Pro / SimpleQA / HLE 等）、推論（LiveCodeBench / Codeforces / HMMT / Apex 等）、エージェント（Terminal Bench 2.0 / SWE-Verified / BrowseComp 等）、長コンテキスト（MRCR 1M / CorpusQA 1M）。 ## 実験結果 ### 事前学習ベースモデル - DeepSeek-V4-Flash-Base（13B 活性化/284B）は、大幅に大きい DeepSeek-V3.2-Base（37B 活性化/671B）を多数のベンチマークで上回る。特に世界知識と長コンテキストで優位。 - DeepSeek-V4-Pro-Base は DeepSeek 基盤モデル中の最高性能を達成。知識集約型評価で顕著な向上（FACTS Parametric: 27.1→62.6、SimpleQA verified: 28.3→55.2）。 ### 事後学習モデル（Pro-Max） - **知識**: SimpleQA-Verified で 57.9%（オープンモデル SOTA、既存比 +20pt）。Gemini-3.1-Pro（75.6%）には及ばない。 - **推論**: LiveCodeBench 93.5%（全モデル最高）。Codeforces 3206（人間ランキング 23 位）。Apex Shortlist 90.2%（Gemini-3.1-Pro の 89.1% を上回る）。 - **エージェント**: SWE-Verified 80.6%（Claude Opus 4.6 の 80.8% に並ぶ）。MCPAtlas 73.6%（最高性能）。 - **長コンテキスト**: MRCR 1M で 83.5%（Gemini-3.1-Pro の 76.3% を上回るが Claude Opus 4.6 の 92.9% には及ばない）。 ### 推論効率 - 100 万トークン設定で、DeepSeek-V4-Pro は DeepSeek-V3.2 比で単一トークン推論 FLOPS を 27% に削減、KV キャッシュを 10% に削減。 - DeepSeek-V4-Flash は同設定で FLOPS 10%、KV キャッシュ 7% に削減。 - ルーティングエキスパートパラメータは FP4 精度を使用。将来のハードウェアでは FP4×FP8 演算がさらに 1/3 効率的になる可能性がある。 ### 形式的数学 - Putnam-200 Pass@8 で DeepSeek-V4-Flash-Max が 81.00（Seed-2.0-Pro の 35.50 を大幅に上回る）。 - Putnam-2025 で DeepSeek-V4 が 120/120（完全証明）を達成。 **Table 4: モデル構成** ![[_attachments/DeepSeek_V4/table4-model.png]] (Table 4. Our experiments demonstrate that the XML format effectively mitigates escaping failures and reduces tool-call errors, pr に関するモデル構成を示す。) **Table 6: 評価結果** ![[_attachments/DeepSeek_V4/table6-results.png]] (Table 6. 評価結果を示す。) ## 考察 - **アーキテクチャの複雑さ**: リスク最小化のため予備検証済みの多くの要素を保持した結果、アーキテクチャが比較的複雑になった。今後はより本質的な設計への蒸留を目指す。 - **訓練安定性**: Anticipatory Routing（ルーティングインデックスの先取り計算、壁時間オーバーヘッド約 20%）と SwiGLU Clamping（線形成分 [-10, 10]、ゲート上限 10）がロススパイクを効果的に防止するが、理論的理解は不十分である。 - **テスト時スケーリング**: 100 万トークンコンテキストの効率的処理が、テスト時スケーリングの次のフロンティアを拓く。推論トークンの拡張による性能向上が Max モードで顕著。 - **フロンティアとの差**: GPT-5.4 や Gemini-3.1-Pro に対し、推論性能で約 3〜6 ヶ月の開発遅延がある。知識ベンチマークでは Gemini-3.1-Pro に及ばない。 - **今後の方向**: スパース埋め込みモジュール、低レイテンシアーキテクチャ、マルチモーダル対応、データキュレーション戦略の強化を計画。 ## 強み / 弱点・課題 ### 強み - 100 万トークンコンテキストの効率的ネイティブサポートを実現した初のオープンモデル。推論 FLOPS と KV キャッシュの劇的削減（V3.2 比 73〜90% 削減）。 - DeepSeek-V4-Flash は 13B 活性化/284B という小さいモデルサイズで、37B 活性化/671B の DeepSeek-V3.2 を多くのベンチマークで上回る高いパラメータ効率を示す。 - バッチ不変・決定性カーネルによるビット単位の再現性保証は、デバッグと安定性分析において実用的価値が高い。 - 細粒度 EP カーネル、TileLang、テンソルレベルチェックポイントなど、包括的なインフラ最適化。 - OPD による複数ドメインエキスパートの統合は、混合 RL より安定した勾配推定を提供する。 ### 弱点・課題 - フロンティアプロプライエタリモデル（Gemini-3.1-Pro / GPT-5.4）に対し知識・推論で差が残る。 - Anticipatory Routing と SwiGLU Clamping の理論的理解が不足している。 - アーキテクチャの複雑さが高く、CSA / HCA / mHC / MTP / MoE / スライディングウィンドウアテンションの相互作用の完全な理解は困難。 - MRCR 1M で Claude Opus 4.6（92.9%）に対して 83.5% と長コンテキスト検索では改善の余地がある。 - FP4 量子化の将来ハードウェア依存（現行ハードウェアでは FP4×FP8 と FP8×FP8 のピーク FLOPS が同等）。 ## 出典 - [[@2024__arXiv__DeepSeek-V3 Technical Report]] - [[@2025__arXiv__DeepSeek-V3.2 - Pushing the Frontier of Open Large Language Models]] - [[@2025__arXiv__DeepSeek-R1 - Incentivizing Reasoning Capability in LLMs via Reinforcement Learning]]