DeepSeek-R1-Zero - yuuk1's Digital Garden

# DeepSeek-R1-Zero [[DeepSeek-AI]] が開発した、SFT を一切経ずに純粋な強化学習(RL)のみで訓練された推論モデル。DeepSeek-V3-Base(671B MoE、37B アクティブ)を出発点とし、[[GRPO]] + 規則ベース報酬(正確性 + フォーマット)で 10,400 ステップ(1.6 エポック)訓練される。自己検証・省察・動的戦略切替といった高度な推論パターンが SFT なしで自発的に創発する。訓練中に応答長が自然に増加し、省察語("wait"、"mistake" 等)の頻度が 5〜7 倍に増加する。特に注目すべきは「aha モーメント」——8,000 ステップ以降に "wait" の使用が急増し、モデルが自律的に推論を中断・再評価する行動が出現した。 AIME 2024 で pass@1 77.9%、cons@16 86.7% を達成。Codeforces パーセンタイル 80.4%、GPQA Diamond 75.8%。一方で可読性の低さ、英語と中国語の混合、非推論タスクでの限定的性能が課題として残り、これらは [[DeepSeek-R1]] の多段パイプラインで解消された。 RL のみで推論能力を引き出せることを大規模に実証した最初のモデルであり、後続の研究(OpenR1、Sky-T1 等)に直接的な影響を与えた。