# DeepSeek-V3
[[DeepSeek-AI]] が開発した 671B 総パラメータ(トークンあたり 37B 活性化)の [[Mixture-of-Experts]] 大規模言語モデル。
## アーキテクチャ
- **基盤**: Transformer(61 層、隠れ次元 7168)
- **アテンション**: [[Multi-head Latent Attention]](128 ヘッド、$d_h = 128$、KV 圧縮 $d_c = 512$)
- **FFN**: DeepSeekMoE(共有エキスパート 1、ルーティングエキスパート 256、トークンあたり 8 活性化)
- **ゲーティング**: シグモイド関数 + 正規化、補助損失なし負荷分散
- **訓練目的関数**: 次トークン予測 + マルチトークン予測($D = 1$)
- **精度**: FP8 混合精度訓練
## 訓練
- **データ**: 14.8 兆トークン(英語・中国語主体、多言語)
- **インフラ**: 2,048 台 NVIDIA H800 GPU、HAI-LLM フレームワーク
- **並列化**: PP16 + EP64 + ZeRO-1 DP、[[DualPipe]]
- **コスト**: 2,788K GPU 時間(約 557 万ドル)
- **コンテキスト長**: 4K→32K→128K(YaRN による 2 段階拡張)
## 性能
オープンソースモデル最高性能を達成し、GPT-4o・Claude-3.5-Sonnet に匹敵する:
- MMLU 88.5、MATH-500 90.2、AIME 2024 39.2
- Arena-Hard 85.5(オープンソース初の 85% 超え)
- Codeforces 51.6 パーセンタイル
## 出典
- [[@2024__arXiv__DeepSeek-V3 Technical Report]]