DeepSeek-V4 - yuuk1's Digital Garden

# DeepSeek-V4 [[DeepSeek-AI]] が開発した次世代 MoE 言語モデルシリーズ。100 万トークンのコンテキスト長を効率的にネイティブサポートする。DeepSeek-V3 アーキテクチャを発展させ、ハイブリッドアテンション（CSA + HCA）、多様体制約付きハイパーコネクション（mHC）、Muon オプティマイザを導入した。 ## モデルバリアント | バリアント | 総パラメータ | 活性化パラメータ | 層数 | 隠れ次元 | エキスパート構成 | 訓練トークン | |---|---|---|---|---|---|---| | DeepSeek-V4-Pro | 1.6T | 49B | 61 | 7168 | 1 共有 + 384 ルーティング（6 活性化） | 33T | | DeepSeek-V4-Flash | 284B | 13B | 43 | 4096 | 1 共有 + 256 ルーティング（6 活性化） | 32T | ## 推論努力モード - **Non-think**: 高速・直感的応答。日常的タスク向け - **Think High**: 論理的分析。複雑な問題解決向け - **Think Max**: 推論能力の限界を追求。特殊システムプロンプト付き ## アーキテクチャの特徴 - **CSA**（Compressed Sparse Attention）: KV キャッシュを 4 トークン→1 に圧縮し、Lightning Indexer で top-k スパース選択 - **HCA**（Heavily Compressed Attention）: 128 トークン→1 の高圧縮密アテンション - **mHC**: 二重確率行列多様体上の残差変換で訓練安定性を向上 - **Muon オプティマイザ**: ハイブリッド Newton-Schulz 反復による直交化 - **FP4 QAT**: MoE エキスパート重みとインデクサ QK パスに FP4 量子化 ## DeepSeek-V3 からの進化 - KV キャッシュ: 100 万トークンで V3.2 比 10%（Pro）に削減 - 推論 FLOPS: 100 万トークンで V3.2 比 27%（Pro）に削減 - アフィニティスコア活性化関数: Sigmoid → $\sqrt{\text{Softplus}(\cdot)}$ - 初期層 FFN: 密→Hash ルーティング MoE に置換 - 事後学習: 混合 RL → OPD（On-Policy Distillation）に移行 ## 出典 - [[@2025__DeepSeek__DeepSeek-V4 - Towards Highly Efficient Million-Token Context Intelligence]]