DeepSeek-R1 - yuuk1's Digital Garden

# DeepSeek-R1 [[DeepSeek-AI]] が開発した推論特化 LLM。DeepSeek-V3-Base(671B MoE、37B アクティブ)を基盤に、コールドスタート SFT → 第一 RL(推論特化)→ リジェクションサンプリング + SFT(800K データ)→ 第二 RL(汎用)の 4 段階パイプラインで訓練される。 [[GRPO]] と規則ベース報酬を中核とし、言語一貫性報酬・有用性報酬モデル・安全性報酬モデルを段階的に導入する。[[DeepSeek-R1-Zero]] で発見された推論能力を継承しつつ、可読性・指示追従・汎用能力を向上させた最終モデル。 AIME 2024 で pass@1 79.8%(OpenAI o1-1217 の 79.2% と同等)、MATH-500 で 97.3%、Codeforces パーセンタイル 96.3%、AlpacaEval 2.0 LC-winrate 87.6% を達成。ChatbotArena(2025-01-24)でスタイル制御設定にて OpenAI o1 と並び首位。MIT ライセンスでモデル重みを公開。Nature 645, 633-638 (2025) に掲載。訓練コストは R1-Zero が 64x8 H800 GPU で約 198 時間(約 $202K)、R1 が約 80 時間(約 $82K)、SFT データ作成に $10K、総額約 $294K。蒸留モデルとして DeepSeek-R1-Distill-Qwen-1.5B / 7B / 14B / 32B および DeepSeek-R1-Distill-Llama-8B / 70B を公開。 ## 下流タスクでの利用 - **時系列推論のバックボーン**: TimeReasoner([[@2025__KDD__Can Slow-thinking LLMs Reason Over Time - Empirical Studies in Time Series Forecasting]])のデフォルトバックボーン LLM として採用。オープンソース性と完全な推論軌跡の露出が選択理由で、温度 τ=0.6・top-p=0.7 で最良性能を示した(Figure 6)。ETTh1 で MSE 5.4 を達成し、iTransformer(7.5)・PatchTST 等の深層学習ベースラインを上回る。 - **時系列推論エージェントのバックボーン候補**: AlphaCast([[@2025__arXiv__AlphaCast - A Human Wisdom-LLM Intelligence Co-Reasoning Framework for Interactive Time Series Forecasting]])でも GPT-5 と並ぶ推論エンジン候補として評価される。 - **GRPO + 規則ベース報酬の設計思想を継承**: Time-R1([[@2025__NeurIPS__Time-R1 - Post-Training Large Vision Language Model for Temporal Video Grounding]])と TimeOmni-1([[@2026__ICLR2026__TimeOmni-1 - Incentivizing Complex Reasoning with Time Series in Large Language Models]])は DeepSeek-R1 の GRPO + 規則ベース報酬の枠組みを継承し、それぞれ TVG・時系列推論ドメインへ拡張した。「コールドスタート SFT で推論型を注入してから RL」という二段階訓練パターンも両者に引き継がれている。