DeepSeek-V3 - yuuk1's Digital Garden

# DeepSeek-V3 [[DeepSeek-AI]] が開発した 671B 総パラメータ（トークンあたり 37B 活性化）の [[Mixture-of-Experts]] 大規模言語モデル。 ## アーキテクチャ - **基盤**: Transformer（61 層、隠れ次元 7168） - **アテンション**: [[Multi-head Latent Attention]]（128 ヘッド、$d_h = 128$、KV 圧縮 $d_c = 512$） - **FFN**: DeepSeekMoE（共有エキスパート 1、ルーティングエキスパート 256、トークンあたり 8 活性化） - **ゲーティング**: シグモイド関数 + 正規化、補助損失なし負荷分散 - **訓練目的関数**: 次トークン予測 + マルチトークン予測（$D = 1$） - **精度**: FP8 混合精度訓練 ## 訓練 - **データ**: 14.8 兆トークン（英語・中国語主体、多言語） - **インフラ**: 2,048 台 NVIDIA H800 GPU、HAI-LLM フレームワーク - **並列化**: PP16 + EP64 + ZeRO-1 DP、[[DualPipe]] - **コスト**: 2,788K GPU 時間（約 557 万ドル） - **コンテキスト長**: 4K→32K→128K（YaRN による 2 段階拡張） ## 性能オープンソースモデル最高性能を達成し、GPT-4o・Claude-3.5-Sonnet に匹敵する: - MMLU 88.5、MATH-500 90.2、AIME 2024 39.2 - Arena-Hard 85.5（オープンソース初の 85% 超え） - Codeforces 51.6 パーセンタイル ## 推論での再現実装 [[LMSYS]] の [[SGLang]] チームは 2025-05-05、96 台の H100 GPU 上で DeepSeek-V3 級モデルを [[Prefill-Decode分離|PD Disaggregation]] + 大規模 Expert Parallelism により配備し、DeepSeek 公式プロフィールにほぼ匹敵する性能(TP16 基準比 Prefill 最大 3.3 倍・Decode 最大 5.2 倍)を、オープンソース実装として初めて達成したと報告した。(Source: [[@2025__LMSYS Blog__Deploying DeepSeek with PD Disaggregation and Large-Scale Expert Parallelism on 96 H100 GPUs]]) ## AIOps 応用(オンプレミス LLM としての採用例) [[@2026__FSE Companion__Leveraging LLMs for Alert Summarization and Mitigation Plan Generation]] は DeepSeek-V3 を IBM Watsonx.ai 上でファインチューニングし、LLaMA-3-70B と並ぶオンプレミス基盤モデルとして [[GPT-4o]] と比較評価した。適応的インコンテキスト学習下で、DeepSeek-V3 は RCA 整合性(MSDS で Precision Alignment 77.42%・Token Alignment 95.16%)と読みやすさ(Readability)で GPT-4o を上回る一方、正確性(Correctness、特に複雑な緩和計画生成)では GPT-4o に劣った。Plan-to-Code(Ansible playbook 生成)のゼロショット評価でも用いられ、Task Completion Rate は MicroSS 71.9%・MSDS 18%であった。(Source: [[@2026__FSE Companion__Leveraging LLMs for Alert Summarization and Mitigation Plan Generation]]) ## 出典 - [[@2024__arXiv__DeepSeek-V3 Technical Report]] - [[@2025__LMSYS Blog__Deploying DeepSeek with PD Disaggregation and Large-Scale Expert Parallelism on 96 H100 GPUs]] - [[@2026__FSE Companion__Leveraging LLMs for Alert Summarization and Mitigation Plan Generation]]