DeepSeek-AI - yuuk1's Digital Garden

# DeepSeek-AI 中国を拠点とする AI 研究組織。大規模言語モデルのオープンソース開発を推進し、汎用 LLM（DeepSeek LLM、DeepSeek-V3、DeepSeek-V3.2、DeepSeek-V4）、コード特化モデル（[[DeepSeek-Coder]]）、推論特化モデル（DeepSeek-R1）、マルチモーダルモデル（DeepSeek-VL2）など幅広いモデルファミリーを公開している。 ## 主要プロダクト - **DeepSeek LLM**: 汎用言語モデルシリーズ（7B/67B）。長期主義に基づくスケーリング設計 - **[[DeepSeek-Coder]]**: コード特化 LLM シリーズ（1.3B/6.7B/33B）。87 言語・2 兆トークンでスクラッチ学習 - **DeepSeek-V3**: MoE アーキテクチャを採用した大規模汎用モデル - **[[DeepSeek-R1]]**: 強化学習による推論特化モデル。SFT なしの純粋 RL で推論能力を引き出す [[DeepSeek-R1-Zero]] と、多段パイプラインの最終モデル。[[GRPO]] + 規則ベース報酬で AIME 2024 pass@1 79.8%、Codeforces パーセンタイル 96.3% を達成。MIT ライセンスで公開し、1.5B〜70B の蒸留モデルも提供 - **[[DeepSeek-V3.2]]**: DSA（スパースアテンション）と大規模 RL スケーリングで GPT-5 と同等の推論性能を達成。Speciale 変種は IMO/IOI で金メダル水準 - **[[DeepSeek-VL2]]**: MoE ベースのマルチモーダル視覚言語モデルシリーズ（Tiny/Small/標準の 3 バリアント、活性化 1.0B–4.5B） - **[[DeepSeek-V4]]**: CSA + HCA ハイブリッドアテンション、mHC、Muon オプティマイザにより 100 万トークンコンテキストを効率的に処理するモデル（Pro: 1.6T/49B、Flash: 284B/13B） ## 技術的特徴 - **DeepSeekMath 7B**: 数学推論特化モデル。DeepSeek-Coder-Base-v1.5 7B を 120B 数学トークンで継続事前学習し、[[GRPO]] による強化学習で外部ツールなし MATH 51.7% を達成。**GRPO の初出論文**（arXiv:2402.03300, 2024）。 - **DeepSeekMoE アーキテクチャ**: 細粒度エキスパート分割と共有エキスパートを組み合わせた [[Mixture-of-Experts]] 設計。 - **Multi-head Latent Attention (MLA)**: KV キャッシュを潜在ベクトルに圧縮し推論時のメモリ使用量とスループットを改善する機構。DeepSeek-V2 で導入。 - **補助損失なし負荷分散**: シグモイドゲーティング + エキスパート補正バイアスによる load balance（DeepSeek-V3 以降）。 ## 特徴 - 研究・商用利用ともに無制限の寛容なライセンスでモデルを公開する方針をとっている - High-Flyer（幻方量化）グループに属し、HAI-LLM フレームワークを訓練インフラとして活用する - 北京大学との共同研究体制を持つ ## 出典 - [[@2024__arXiv__DeepSeekMath - Pushing the Limits of Mathematical Reasoning in Open Language Models]]（GRPO の提案・数学コーパス 120B トークンの構築・MATH 51.7%） - [[@2024__arXiv__DeepSeek-Coder - When the Large Language Model Meets Programming]] - [[@2024__arXiv__DeepSeek LLM - Scaling Open-Source Language Models with Longtermism]] - [[@2024__arXiv__DeepSeek-V3 Technical Report]] - [[@2025__arXiv__DeepSeek-V3.2 - Pushing the Frontier of Open Large Language Models]]（DSA・GRPO スケーリング安定化・合成エージェントタスクパイプライン） - [[@2025__DeepSeek__DeepSeek-V4 - Towards Highly Efficient Million-Token Context Intelligence]]（CSA + HCA ハイブリッドアテンション・mHC・Muon・OPD） - [[@2025__arXiv__DeepSeek-R1 - Incentivizing Reasoning Capability in LLMs via Reinforcement Learning]]（純粋 RL による推論能力の創発・GRPO 大規模適用・蒸留モデル群。Nature 645, 633-638）