# DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models > [!abstract] 概要 > DeepSeek-V3.2 は計算効率と高度な推論・エージェント性能を両立するオープン LLM である。主要な技術的貢献は 3 つ: (1) DeepSeek Sparse Attention(DSA)—ライトニングインデクサと細粒度トークン選択により長コンテキストの計算量を大幅に削減するスパースアテンション機構、(2) スケーラブル RL フレームワーク—事後学習計算予算を事前学習コストの 10% 超に拡大し GPT-5 と同等の推論性能を達成、(3) 大規模エージェントタスク合成パイプライン—推論をツール利用シナリオに統合するために 1,800 以上の環境と 85,000 のプロンプトを自動合成。高計算量変種の DeepSeek-V3.2-Speciale は GPT-5 を凌駕し Gemini-3.0-Pro と同等の推論能力を示し、IMO 2025 と IOI 2025 で金メダル水準を達成する。 ## 論文情報 - **著者**: [[DeepSeek-AI]](264 名超の共著) - **発表日**: 2025-12-02 - **会議/媒体**: arXiv(プレプリント) - **URL**: https://arxiv.org/abs/2512.02556 ## 概要 DeepSeek-V3.2 は DeepSeek-V3.1-Terminus をベースに、アーキテクチャ・事後学習・エージェント能力の 3 軸で改善を施したオープン LLM である。オープンソースモデルとプロプライエタリモデルの性能差が拡大する中、(1) バニラアテンションの長系列での非効率、(2) 事後学習への計算資源の不足、(3) エージェントタスクでの汎化能力の遅れという 3 つの構造的課題を特定し、それぞれに対応する解を提案する。 ## 問題設定 オープンソース LLM とプロプライエタリモデルの性能差が推論・コード・エージェントタスクで拡大している。論文は 3 つの根本原因を特定する: 1. **アーキテクチャ制約**: バニラアテンションの O(L²) 複雑度が長系列のスケーラブルな展開と事後学習を妨げる 2. **事後学習の計算投資不足**: オープンソースモデルは事後学習フェーズへの計算投入が不十分で、難タスクでの性能が頭打ちになる 3. **エージェント能力の遅れ**: ツール利用シナリオでの汎化と指示追従がプロプライエタリモデルに大きく劣る ## 提案手法 ### DeepSeek Sparse Attention(DSA) DSA は MLA(Multi-head Latent Attention)上に実装されたスパースアテンション機構であり、ライトニングインデクサと細粒度トークン選択の 2 コンポーネントからなる。 - **ライトニングインデクサ**: クエリトークンと先行トークンの間のインデックススコアを ReLU 活性化で計算する軽量モジュール。少数のインデクサヘッドと FP8 実装により高い計算効率を達成する - **細粒度トークン選択**: インデックススコアの top-k に対応するキーバリューエントリのみを取得してアテンション出力を計算する - **MLA との統合**: MQA(Multi-Query Attention)モードの MLA 上に実装し、各潜在ベクトル(MLA のキーバリューエントリ)を全クエリヘッドで共有する **継続事前学習**は 2 段階: 1. **密ウォームアップ段階**: 密アテンションを維持しライトニングインデクサのみを訓練。主アテンション分布との KL ダイバージェンス損失で整合。1,000 ステップ・2.1B トークン 2. **スパース訓練段階**: 細粒度トークン選択を導入し全パラメータを最適化。クエリトークンあたり 2,048 のキーバリュートークンを選択。15,000 ステップ・943.7B トークン 主モデルのコアアテンション複雑度を O(L²) から O(Lk)(k ≪ L)に削減する。ライトニングインデクサは O(L²) だが MLA より計算量が小さく、最適化実装と合わせて長コンテキストでエンドツーエンドの大幅な高速化を達成する。 ### スケーラブル RL フレームワーク 事後学習は**スペシャリスト蒸留**と**混合 RL 訓練**の 2 段階で構成される。 **スペシャリスト蒸留**: 数学・プログラミング・一般論理推論・一般エージェント・エージェントコーディング・エージェント検索の 6 専門ドメインごとに特化モデルを RL で訓練し、思考モードと非思考モードの両方を対応させる。蒸留データで訓練したモデルはスペシャリストに僅差まで迫り、後続の RL で差が解消される。 **混合 RL 訓練**: [[GRPO]] を RL アルゴリズムとして採用し、推論・エージェント・人間アライメントの訓練を単一の RL ステージに統合する。報酬はタスク種別に応じて使い分ける: - 推論/エージェント: ルールベースの結果報酬 + 長さペナルティ + 言語一貫性報酬 - 一般タスク: プロンプトごとのルーブリックに基づく生成的報酬モデル **GRPO スケーリングの安定化技術**: - **不偏 KL 推定**: 重要度サンプリング比を用いて K3 推定量を補正し、不偏な KL 勾配を得る。πθ ≪ πref のトークンへの不均衡な重み割り当てを排除 - **オフポリシーシーケンスマスキング**: 負のアドバンテージかつ大きなポリシー乖離を示すシーケンスをマスク。高度にオフポリシーな負例からの誤った学習を防止 - **Keep Routing**: MoE モデルの推論時と訓練時のエキスパートルーティング不一致を解消するため、サンプリング時のルーティングパスを訓練時に強制。DeepSeek-V3-0324 以降で採用 - **Keep Sampling Mask**: top-p/top-k サンプリングの切り捨てマスクを保存し πθ の訓練時に適用。πold と πθ の行動空間の不一致を解消し言語一貫性を維持 ### 大規模エージェントタスク合成パイプライン 推論能力をツール利用シナリオに統合するための 3 段階のアプローチ: 1. **コンテキスト管理**: 推論コンテンツはツールメッセージ追加時に保持し、新規ユーザーメッセージ到着時にのみ破棄。ツールコールの履歴は常に保持。冗長な再推論を排除 2. **コールドスタート**: DeepSeek-V3 の手法で推論データと非推論エージェントデータを明示的なプロンプト設計で統合。思考タグ内にツールコールを組み込む 3. **大規模タスク合成**: 4 種類のエージェントタスク(コードエージェント 24,667 / 検索エージェント 50,275 / 一般エージェント 4,417 / コードインタプリタ 5,908)を構築。一般エージェントでは自動環境合成エージェントが 1,827 のタスク指向環境を生成 ## 新規性 1. **DSA**: MLA 上にスパースアテンションを実装し、継続事前学習で既存モデルに後付け可能。密ウォームアップ→スパース訓練の 2 段階で性能劣化なくスパース化を達成 2. **GRPO スケーリング安定化**: 不偏 KL 推定・オフポリシーシーケンスマスキング・Keep Routing・Keep Sampling Mask の 4 技術により、事前学習コスト 10% 超の大規模 RL を安定的に実行 3. **合成エージェント環境**: 1,827 の自動合成環境で RL 訓練し、未知のベンチマーク環境へ汎化。合成データのみの RL で既存のコード/検索限定 RL を大幅に上回る ## 実験設定 - **ベースモデル**: DeepSeek-V3.1-Terminus(128K コンテキスト対応)からの継続事前学習 - **ハードウェア**: H800 GPU クラスタ - **ベンチマーク**: MMLU-Pro / GPQA Diamond / HLE / LiveCodeBench / Codeforces / AIME 2025 / HMMT 2025 / SWE-Verified / Terminal Bench 2.0 / BrowseComp / τ²-Bench / MCP-Universe / MCP-Mark / Tool-Decathlon 等 - **比較対象**: Claude 4.5 Sonnet / GPT-5 High / Gemini-3.0-Pro / Kimi-K2-Thinking / MiniMax-M2 ## 実験結果 ### 推論性能 - AIME 2025 で 93.1%(GPT-5 High: 94.6%、Gemini-3.0-Pro: 95.0%) - HMMT Feb 2025 で 92.5%(GPT-5 High: 88.3%) - HLE で 25.1%(GPT-5 High: 26.3%) - Codeforces レーティング 2386(GPT-5 High: 2537) GPT-5 と同等、Kimi-K2-Thinking と比較して大幅に少ない出力トークンで同等の性能を達成する。 ### エージェント性能 - SWE-Verified: 73.1%(オープンソース最高、Claude 4.5 Sonnet: 77.2%) - SWE Multilingual: 70.2%(全モデル中最高) - Terminal Bench 2.0: 46.4%(Gemini-3.0-Pro: 54.2% に次ぐ) - BrowseComp: 67.6%(コンテキスト管理適用時、全モデル中最高) - τ²-Bench: 80.3%(GPT-5 High: 80.2% と同等) オープンソースとプロプライエタリモデルのエージェント性能差を大幅に縮小する。 ### DeepSeek-V3.2-Speciale 長さ制約を緩和し推論データのみで訓練した変種: - HMMT Feb 2025: 99.2%(Gemini-3.0-Pro: 97.5% を凌駕) - AIME 2025: 96.0% - IMOAnswerBench: 84.5%(Gemini-3.0-Pro: 83.3% を凌駕) - IMO 2025: 35/42 で金メダル、IOI 2025: 492/600 で金メダル(10 位)、ICPC WF 2025: 10/12 で金メダル(2 位) ただし Gemini-3.0-Pro に比べトークン効率は大幅に劣る(Codeforces で 77k 対 22k トークン等)。 ### 推論コスト DSA により 128K コンテキストでのプリフィルコストが DeepSeek-V3.1-Terminus の約 1/4 に低下。デコードコストも同様に大幅削減。短系列プリフィルではマスク付き MHA モードで DSA をシミュレートし、さらに高い効率を達成する。 ## 考察 - **RL スケーリングの有効性**: 事後学習計算予算を事前学習コストの 10% 超に拡大した結果、継続的な性能向上を観測。推論能力はさらなる計算投入で向上可能と示唆する - **合成データの汎化**: 合成一般エージェントタスクでの RL がコード/検索限定の RL を大幅に上回り、未知のベンチマーク環境(MCP-Universe / MCP-Mark / τ²-Bench)への汎化を実証 - **テスト時計算のスケーリング**: BrowseComp でのコンテキスト管理実験では、Discard-all 戦略が並列スケーリングと同等の性能を少ないステップで達成。逐次的(コンテキスト管理)と並列的スケーリングの最適組み合わせが今後の課題 ## 強み / 弱点・課題 ### 強み - DSA による長コンテキスト推論の大幅なコスト削減を、性能劣化なく達成 - GRPO の 4 つの安定化技術により、大規模 RL の実用的なレシピを確立 - 合成エージェントタスクがドメイン外環境に汎化することを実証 - Speciale 変種が IMO/IOI/ICPC で金メダルを獲得し、オープンモデルの推論能力の上限を押し上げた ### 弱点・課題 - **知識の幅**: 事前学習 FLOPS の不足により世界知識の広さがプロプライエタリモデルに劣る - **トークン効率**: 同等品質の出力に Gemini-3.0-Pro より大幅に多くのトークンを要する(Codeforces で 77k 対 22k) - **複雑タスクの性能**: HLE 等の最難ベンチマークでは Gemini-3.0-Pro に依然大差 - **128K コンテキスト制約**: エージェントワークフローで 128K を超過するケースが 20% 以上存在し、コンテキスト管理が必須 - **冗長な自己検証**: ツール利用時に過剰な自己検証を行い、トークンを浪費する傾向