# DeepSeek-V3 [[DeepSeek-AI]] が開発した 671B 総パラメータ(トークンあたり 37B 活性化)の [[Mixture-of-Experts]] 大規模言語モデル。 ## アーキテクチャ - **基盤**: Transformer(61 層、隠れ次元 7168) - **アテンション**: [[Multi-head Latent Attention]](128 ヘッド、$d_h = 128$、KV 圧縮 $d_c = 512$) - **FFN**: DeepSeekMoE(共有エキスパート 1、ルーティングエキスパート 256、トークンあたり 8 活性化) - **ゲーティング**: シグモイド関数 + 正規化、補助損失なし負荷分散 - **訓練目的関数**: 次トークン予測 + マルチトークン予測($D = 1$) - **精度**: FP8 混合精度訓練 ## 訓練 - **データ**: 14.8 兆トークン(英語・中国語主体、多言語) - **インフラ**: 2,048 台 NVIDIA H800 GPU、HAI-LLM フレームワーク - **並列化**: PP16 + EP64 + ZeRO-1 DP、[[DualPipe]] - **コスト**: 2,788K GPU 時間(約 557 万ドル) - **コンテキスト長**: 4K→32K→128K(YaRN による 2 段階拡張) ## 性能 オープンソースモデル最高性能を達成し、GPT-4o・Claude-3.5-Sonnet に匹敵する: - MMLU 88.5、MATH-500 90.2、AIME 2024 39.2 - Arena-Hard 85.5(オープンソース初の 85% 超え) - Codeforces 51.6 パーセンタイル ## 出典 - [[@2024__arXiv__DeepSeek-V3 Technical Report]]