# DeepSeek-V4
[[DeepSeek-AI]] が開発した次世代 MoE 言語モデルシリーズ。100 万トークンのコンテキスト長を効率的にネイティブサポートする。DeepSeek-V3 アーキテクチャを発展させ、ハイブリッドアテンション(CSA + HCA)、多様体制約付きハイパーコネクション(mHC)、Muon オプティマイザを導入した。
## モデルバリアント
| バリアント | 総パラメータ | 活性化パラメータ | 層数 | 隠れ次元 | エキスパート構成 | 訓練トークン |
|---|---|---|---|---|---|---|
| DeepSeek-V4-Pro | 1.6T | 49B | 61 | 7168 | 1 共有 + 384 ルーティング(6 活性化) | 33T |
| DeepSeek-V4-Flash | 284B | 13B | 43 | 4096 | 1 共有 + 256 ルーティング(6 活性化) | 32T |
## 推論努力モード
- **Non-think**: 高速・直感的応答。日常的タスク向け
- **Think High**: 論理的分析。複雑な問題解決向け
- **Think Max**: 推論能力の限界を追求。特殊システムプロンプト付き
## アーキテクチャの特徴
- **CSA**(Compressed Sparse Attention): KV キャッシュを 4 トークン→1 に圧縮し、Lightning Indexer で top-k スパース選択
- **HCA**(Heavily Compressed Attention): 128 トークン→1 の高圧縮密アテンション
- **mHC**: 二重確率行列多様体上の残差変換で訓練安定性を向上
- **Muon オプティマイザ**: ハイブリッド Newton-Schulz 反復による直交化
- **FP4 QAT**: MoE エキスパート重みとインデクサ QK パスに FP4 量子化
## DeepSeek-V3 からの進化
- KV キャッシュ: 100 万トークンで V3.2 比 10%(Pro)に削減
- 推論 FLOPS: 100 万トークンで V3.2 比 27%(Pro)に削減
- アフィニティスコア活性化関数: Sigmoid → $\sqrt{\text{Softplus}(\cdot)}$
- 初期層 FFN: 密→Hash ルーティング MoE に置換
- 事後学習: 混合 RL → OPD(On-Policy Distillation)に移行
## 出典
- [[@2025__DeepSeek__DeepSeek-V4 - Towards Highly Efficient Million-Token Context Intelligence]]