# DeepSeek-R1
[[DeepSeek-AI]] が開発した推論特化 LLM。DeepSeek-V3-Base(671B MoE、37B アクティブ)を基盤に、コールドスタート SFT → 第一 RL(推論特化)→ リジェクションサンプリング + SFT(800K データ)→ 第二 RL(汎用)の 4 段階パイプラインで訓練される。
[[GRPO]] と規則ベース報酬を中核とし、言語一貫性報酬・有用性報酬モデル・安全性報酬モデルを段階的に導入する。[[DeepSeek-R1-Zero]] で発見された推論能力を継承しつつ、可読性・指示追従・汎用能力を向上させた最終モデル。
AIME 2024 で pass@1 79.8%(OpenAI o1-1217 の 79.2% と同等)、MATH-500 で 97.3%、Codeforces パーセンタイル 96.3%、AlpacaEval 2.0 LC-winrate 87.6% を達成。ChatbotArena(2025-01-24)でスタイル制御設定にて OpenAI o1 と並び首位。MIT ライセンスでモデル重みを公開。Nature 645, 633-638 (2025) に掲載。
訓練コストは R1-Zero が 64x8 H800 GPU で約 198 時間(約 $202K)、R1 が約 80 時間(約 $82K)、SFT データ作成に $10K、総額約 $294K。
蒸留モデルとして DeepSeek-R1-Distill-Qwen-1.5B / 7B / 14B / 32B および DeepSeek-R1-Distill-Llama-8B / 70B を公開。