2025__arXiv__DeepSeek-R1 - Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

## Memo ## Memo with LLM ### 論文情報 - **論文タイトル**: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning - **著者と所属**: DeepSeek-AI他、200名近い著者による共著 - **カンファレンス/ジャーナル名**: arXiv preprint - **発表年**: 2025年 ### 論文概要本論文では、大規模な[[強化学習]]（RL）を用いて言語モデルの推論能力を向上させる初のオープンソース研究であるDeepSeek-R1-ZeroとDeepSeek-R1を紹介している。DeepSeek-R1-Zeroは教師ありファインチューニングなしで純粋にRLのみで訓練され、DeepSeek-R1はコールドスタートデータを組み込んでOpenAI-o1-1217に匹敵する性能を達成している。また、より小さなモデルへの[[蒸留]]技術により、効率的な推論能力の転移を実現している。 ### 詳細解説 #### 問題設定従来の言語モデルの推論能力向上には大量の教師ありデータが必要であったが、本研究では純粋な強化学習により推論能力を獲得することを目指している。入力は数学問題、コーディング問題、科学的推論問題など多様な推論タスクであり、出力は段階的な思考過程（[[Chain-of-Thought]]）を含む回答である。必要なデータは基本的にベースモデル（DeepSeek-V3-Base）と報酬計算のためのルールベースシステムのみである。 #### 提案手法本研究の核心はGroup Relative Policy Optimization（GRPO）を用いた大規模強化学習である。従来のRLアルゴリズムと異なり、GRPOはcriticモデルを使用せず、グループ内の報酬から利得を推定する： **目的関数**: $\mathcal{L} = \mathbb{E}_{x,y \sim \pi_{\text{old}}(y|x)} \left[ \min \left( \frac{\pi(y|x)}{\pi_{\text{old}}(y|x)} A(x,y), \text{clip}\left(\frac{\pi(y|x)}{\pi_{\text{old}}(y|x)}, 1-\epsilon, 1+\epsilon \right) A(x,y) \right) \right]$ **利得計算**: $A(x,y) = r(x,y) - \frac{1}{G} \sum_{i=1}^G r(x,y_i)$ DeepSeek-R1-Zeroでは純粋にRLのみで訓練し、DeepSeek-R1では4段階のパイプライン（コールドスタート、推論指向RL、拒否サンプリング、全シナリオRL）を採用している。 #### 新規性本研究の最大の新規性は、教師ありファインチューニング無しで純粋にRLのみから推論能力を獲得した初のオープンソース研究である点にある。先行研究であるOpenAIの[[o1]]シリーズは詳細が公開されていないが、本研究は完全にオープンソースであり、再現可能性が高い。また、「aha moment」という現象を発見し、モデルが自発的により多くの思考時間を割り当てる行動を獲得することを示している。 #### 実験設定評価には数学（AIME 2024、MATH-500）、コーディング（LiveCodeBench、Codeforces）、知識（MMLU、GPQA Diamond）、中国語（C-Eval、CLUEWSC）など幅広いベンチマークを使用している。評価指標はpass@1（1回の試行での正解率）を基本とし、一部でconsensus@64（64回の試行での多数決）も使用している。温度パラメータ0.6、top-p値0.95で生成し、最大生成長は32,768トークンに設定している。 #### 実験結果 DeepSeek-R1はAIME 2024で79.8%（OpenAI-o1-1217と同等）、MATH-500で97.3%を達成している。コーディングタスクではCodeforcesで2,029 Eloレーティング（人間参加者の96.3%を上回る）を記録している。蒸留モデルも優秀で、DeepSeek-R1-Distill-Qwen-7BはAIME 2024で55.5%を達成し、32倍大きなQwQ-32B-Previewを上回る性能を示している。特に注目すべきは、DeepSeek-R1-ZeroがAIME 2024で15.6%から71.0%へと劇的な性能向上を遂げた点である。 ## Abstract 我々は第一世代の推論モデルであるDeepSeek-R1-ZeroとDeepSeek-R1を紹介する。DeepSeek-R1-Zeroは、教師ありファインチューニング（SFT）を初期段階として用いることなく、大規模強化学習（RL）によって訓練されたモデルであり、顕著な推論能力を実証している。RLを通じて、DeepSeek-R1-Zeroは数多くの強力で興味深い推論行動を自然に発現させる。しかし、可読性の悪さや言語混在などの課題に直面している。これらの問題に対処し、推論性能をさらに向上させるため、我々は多段階訓練とコールドスタートデータをRLの前に組み込んだDeepSeek-R1を導入する。DeepSeek-R1は推論タスクにおいてOpenAI-o1-1217に匹敵する性能を達成している。研究コミュニティを支援するため、我々はDeepSeek-R1-Zero、DeepSeek-R1、およびQwenとLlamaに基づいてDeepSeek-R1から蒸留された6つの密なモデル（1.5B、7B、8B、14B、32B、70B）をオープンソース化する。