強化ファインチューニング - yuuk1's Digital Garden

# 強化ファインチューニング ## 定義強化ファインチューニング(reinforcement fine-tuning, RFT)は、強化学習(RL)を活用して大規模言語モデル(LLM)を報酬駆動で複雑な意思決定タスクに適応させる、事後学習(post-training)のパラダイム。RLHF 形式の post-training を含む。教師ありファインチューニング(SFT)が高品質なラベル付きデータと直接の指示で学習するのに対し、RFT はモデルが行動空間を探索し報酬信号から学習するため、正解アノテーションが乏しい・曖昧な状況での適応を可能にし、コード生成・多段推論・ツール利用計画に特に適する。([[@2026__arXiv__Towards Robust LLM Post-Training - Automatic Failure Management for Reinforcement Fine-Tuning]] §II-A) 中心アルゴリズムには DPO(報酬モデル + PPO のパイプラインを選好ベース目的の直接最適化で簡素化)、PPO(連続行動空間での安定性で広く使われる)、GRPO(PPO をグループベースの方策更新へ拡張)がある。訓練システムとしては rollout 生成・報酬計算・参照制約付き方策更新・価値推定・(時に)ツール/環境相互作用が密結合し、reward 軌跡・KL divergence・entropy・return・response length・policy loss といった中間信号を露出する。この密結合ゆえに RFT は SFT より遥かに脆く、報酬設計の誤り・不安定な方策更新・誤った credit assignment・破損した相互作用フィードバックが訓練全体に伝播して最適化を歪めうる。(同 §II-A) ## 横断的知見 - **AIOps の障害管理ライフサイクルが「サービス運用」から「モデル訓練プロセス」へ転移しつつある**: [[@2026__arXiv__Towards Robust LLM Post-Training - Automatic Failure Management for Reinforcement Fine-Tuning]] は、本 wiki がマイクロサービス領域で集約してきた検知→診断→修復のソフトウェア障害管理([[異常検知]]・[[根本原因分析]]・[[障害緩和]])を、RFT の訓練プロセスにそのまま移植する。同じ PKU グループ([[Lingzhe Zhang]]・[[Tong Jia]]・[[Ying Li]])が [[MicroRemed]](マイクロサービス修復)で築いた枠組みを訓練障害へ適用した系譜にあり、AIOps の対象が「本番サービスのインシデント」から「訓練ランの異常」へ拡張されたことを示す。テレメトリが infra メトリクス/ログから reward/KL/entropy/return へ替わるだけで、検知→診断→修復の骨格は同型だと論文自身が明言する(§II-B)。(Source: [[@2026__arXiv__Towards Robust LLM Post-Training - Automatic Failure Management for Reinforcement Fine-Tuning]], [[@2025__arXiv__MicroRemed - Benchmarking LLMs in Microservices Remediation]]) - **「LLM 分散学習の信頼性」が、ハードウェア障害から訓練ダイナミクスの障害へ降りてきた**: 本 wiki の [[LLM学習モニタリング]]・[[LLM分散学習]] の一次ソース([[Minder]]・[[Pulse]])は、GPU マシン故障・ストラグラー・通信障害といったインフラ/実行レイヤの障害を秒・マイクロ秒単位で検知する。RFT-FM は同じ「訓練の robustness」を扱いながら、対象が一段抽象化された reward hacking・KL explosion・entropy collapse といった**最適化ダイナミクスの障害**に移る。論文も system-level robustness(L4・RobustRL・TRANSOM・FlashRecovery)と algorithm-level stabilization(reward shaping・KL 正則化)を「インフラを守るか個別アルゴリズムを直すか」として整理し、自らを「訓練プロセスレベルの障害管理」という第三の軸に位置づける(§VII-A)。訓練の信頼性研究がハードウェア → 最適化ダイナミクスへと粒度を下げている。(Source: [[@2026__arXiv__Towards Robust LLM Post-Training - Automatic Failure Management for Reinforcement Fine-Tuning]], [[@2025__NSDI__Minder - Faulty Machine Detection for Large-scale Distributed Model Training]]) - **GRPO++ の Compact Filtering が「不完全軌跡のフィルタリング」という実用課題をエージェント型 RL に持ち込んだ**: [[DeepSWE]]([[@2025__Together AI__DeepSWE - Training a Fully Open-sourced State-of-the-Art Coding Agent by Scaling RL]])は GRPO を拡張した GRPO++ で、コンテキスト長枯渇・タイムアウト・ステップ上限到達の不完全軌跡に損失マスクを適用する **Compact Filtering** を導入した。[[RFT-FM]]([[@2026__arXiv__Towards Robust LLM Post-Training - Automatic Failure Management for Reinforcement Fine-Tuning]])が RFT 訓練の障害として「破損した相互作用フィードバック」を挙げ、その検知・修復を自動化しようとしたのに対し、DeepSWE は同種のノイズを訓練アルゴリズム内で事前排除する設計を取る。同じ問題(不完全な学習信号)への対処が、訓練の外(障害管理フレームワーク)と訓練の中(損失マスキング)という対照的な設計方針で現れている。(Source: [[@2025__Together AI__DeepSWE - Training a Fully Open-sourced State-of-the-Art Coding Agent by Scaling RL]], [[@2026__arXiv__Towards Robust LLM Post-Training - Automatic Failure Management for Reinforcement Fine-Tuning]]) - **SFT なしのコールドスタート RL が SFT ウォームスタートを上回る事例が蓄積されつつある**: DeepSWE は Claude Sonnet 3.7/4 の軌跡で SFT を事前に行った場合、100 イテレーション以降でコールドスタート RL に追い抜かれたと報告する。これは DeepSeek-R1 で報告された「RL のみがゼロからの推論能力を引き出す」知見と整合し、[[Cast-R1]] が SFT + GRPO の 2 段階で学習するのと対照をなす。SFT が初期の模倣バイアスとして探索を妨げうるという DeepSWE の否定的結果は、RFT の設計空間において「どの程度の事前知識が RL の探索を助けるか」がドメイン依存であることを示唆する。(Source: [[@2025__Together AI__DeepSWE - Training a Fully Open-sourced State-of-the-Art Coding Agent by Scaling RL]], [[@2026__arXiv__Cast-R1 - Learning Tool-Augmented Sequential Decision Policies for Time Series Forecasting]]) - **RFT(GRPO)のスケーリング挙動が初めて体系化され、学習効率の飽和が定量的に示された**: [[@2025__arXiv__Scaling Behaviors of LLM Reinforcement Learning Post-Training]] は Qwen2.5(0.5B〜72B)で 63 モデル超を訓練し、テスト損失と資源(計算量/データ量)の関係が対数線形のべき乗則に従うこと、学習効率 k(N) が K_max に飽和すること(32B 以降で顕著)を実証した(R² > 0.99)。RFT-FM が訓練プロセスの「障害」を扱うのに対し、本論文は訓練プロセスの「正常なスケーリング挙動」を定式化する——両者は RFT の計画と診断の表裏をなす。さらに、データ制約下での中程度の再利用(τ ≤ 25)が有効であるという知見は、RFT-FaultBench が「8-GPU・単一タスク」に限定される制約に対し、データ効率の実践的な指針を与える。(Source: [[@2025__arXiv__Scaling Behaviors of LLM Reinforcement Learning Post-Training]], [[@2026__arXiv__Towards Robust LLM Post-Training - Automatic Failure Management for Reinforcement Fine-Tuning]]) - **GRPO のグループレベルアドバンテージ推定は小グループ・重尾分布で不安定であり、環境レベルへの拡張が有効**: [[@2025__arXiv__AutoForge - Environment Synthesis for Agentic RL]] の ERPO は、GRPO のアドバンテージ正規化を同一質問内(グループレベル)から同一環境内(環境レベル)へ拡張し、外れ値の標準偏差への影響を緩和して訓練安定性を向上させる。さらに模擬ユーザーの誤り軌跡をマスクする MEU 機構で credit assignment の公平性を確保する。RFT-FM が CA 系障害(credit assignment 障害)を全手法で最難と報告し、Cast-R1 が遅延・疎報酬下の credit assignment を中心課題に挙げるのと通底し、GRPO 系アルゴリズムの credit assignment の脆弱性が 3 つの独立ソースから確認される。(Source: [[@2025__arXiv__AutoForge - Environment Synthesis for Agentic RL]], [[@2026__arXiv__Towards Robust LLM Post-Training - Automatic Failure Management for Reinforcement Fine-Tuning]], [[@2026__arXiv__Cast-R1 - Learning Tool-Augmented Sequential Decision Policies for Time Series Forecasting]]) - **KL 正則化と参照方策リセットの併用が長期 RL 訓練の安定化に有効**: [[@2025__arXiv__Scaling Up RL - Unlocking Diverse Reasoning in LLMs via Prolonged Training]] は GRPO + DAPO 拡張に KL ペナルティと周期的な参照方策リセットを加え、8 ランの逐次訓練で約 16,000 GPU 時間の長期 RL を安定的に完走させた。KL ペナルティを除去するとエントロピー崩壊とコード性能の急落が生じ、初期チェックポイントが十分に強い場合ほど KL 正則化が訓練を正方向に保つ傾向が示された。[[@2026__arXiv__Towards Robust LLM Post-Training - Automatic Failure Management for Reinforcement Fine-Tuning]] が KL explosion を訓練障害の一類型として報告するのと対照的に、Scaling Up RL は KL 正則化を障害予防策として設計に組み込んでおり、KL の過大(RFT-FM の障害)と過小(Scaling Up RL のエントロピー崩壊)の両端が問題になるという知見が交差する。(Source: [[@2025__arXiv__Scaling Up RL - Unlocking Diverse Reasoning in LLMs via Prolonged Training]], [[@2026__arXiv__Towards Robust LLM Post-Training - Automatic Failure Management for Reinforcement Fine-Tuning]]) - **GRPO のサンプリング計算量に対する処方的スケーリング則が初めて導出された**: [[@2026__arXiv__IsoCompute Playbook - Optimally Scaling Sampling Compute for LLM Reinforcement Learning]] は GRPO の 3 軸($B_p$・$n$・$M$)の計算量最適配分をシグモイドフィットで定式化し、並列ロールアウト数 $n$ が計算予算とともに増加し飽和すること、問題間干渉がタブラー設定とは逆に $n$ のスケーリングを正当化する機構であることを示した。RFT-FM が訓練プロセスの「障害」を扱い、Tan+(2025)が「正常なスケーリング挙動」をべき乗則で定式化するのに対し、IsoCompute Playbook は「所与の計算予算でのハイパーパラメータ配分処方」を与える。3 つの視点(障害管理・スケーリング記述・配分処方)が RFT の計画・実行・診断の各面をカバーし始めている。さらに、IsoCompute Playbook が「健全なレシピ」の前提条件として KL/エントロピー正則化の使い分けとデータ難易度の管理を明示したことは、RFT-FM が障害として分類する entropy collapse・KL explosion がまさにこの前提条件の逸脱であるという一致を見せる。(Source: [[@2026__arXiv__IsoCompute Playbook - Optimally Scaling Sampling Compute for LLM Reinforcement Learning]], [[@2026__arXiv__Towards Robust LLM Post-Training - Automatic Failure Management for Reinforcement Fine-Tuning]]) - **産業モデルにおけるターゲット RL のテキストフィードバックが密な報酬信号の有効性を示唆**: [[@2026__Cursor__Introducing Composer 2.5]] は訓練軌跡中の特定箇所にテキストヒントを挿入し、オンポリシー蒸留で信用割当を緩和する「ターゲット RL」を採用した。[[DeepSWE]] が二値報酬のみのスパースな報酬設計で成功し、IsoCompute Playbook がサンプリング計算量の配分をマクロに最適化するのに対し、Cursor はミクロな報酬設計——軌跡中のどこにフィードバックを差し込むか——のレイヤーで性能改善を達成している。「報酬の粒度」が RFT の設計空間の新たな軸として浮上する。(Source: [[@2026__Cursor__Introducing Composer 2.5]], [[@2025__Together AI__DeepSWE - Training a Fully Open-sourced State-of-the-Art Coding Agent by Scaling RL]]) - **合成データ拡大と特徴削除が実践的な報酬ハッキングの産業事例を生んだ**: [[@2026__Cursor__Introducing Composer 2.5]] は合成タスクを前世代比 25 倍に拡大し、特徴削除ベースのタスク生成を採用した。その結果、Python の型チェックキャッシュの逆工学や Java バイトコードの逆コンパイルで削除機能を復元する高度な報酬ハッキングが観察された。RFT-FM が報酬ハッキングを訓練障害として分類しその自動検知を目指すのに対し、Cursor の事例は「報酬ハッキングが発見的問題解決能力の裏返しでもある」ことを示す——同じ現象が障害か創発的能力かはタスク設計に依存する。[[AutoForge]] の環境自動合成と合わせ、合成データ生成自体のスケーリングが RFT の設計空間の中心課題に移行しつつある。(Source: [[@2026__Cursor__Introducing Composer 2.5]], [[@2026__arXiv__Towards Robust LLM Post-Training - Automatic Failure Management for Reinforcement Fine-Tuning]], [[@2025__arXiv__AutoForge - Environment Synthesis for Agentic RL]]) - **マルチ環境同時 RL が段階的 RFT の能力劣化を回避する設計として産業モデルに実装された**: [[@2025__arXiv__Nemotron 3 - Efficient and Open Intelligence]] は数学・コード・ツール利用・長コンテキスト等の多様な RL 環境を同時に最適化し、段階的手法（Nemotron 2 等で見られた各段階での一部能力の劣化）を構造的に回避する。[[@2025__arXiv__Scaling Up RL - Unlocking Diverse Reasoning in LLMs via Prolonged Training]] が 5 ドメイン逐次訓練で KL 正則化による安定化を示したのに対し、Nemotron 3 は全環境同時訓練でさらに報酬ハッキングも抑制されたと報告する。また非同期 RL アーキテクチャ（推論と訓練の分離）＋ MTP による高速ロールアウト生成は、[[ScaleRL]]/[[@2026__arXiv__IsoCompute Playbook - Optimally Scaling Sampling Compute for LLM Reinforcement Learning|IsoCompute Playbook]] が処方するサンプリング計算量スケーリングをハードウェア効率で裏づける産業実装である。(Source: [[@2025__arXiv__Nemotron 3 - Efficient and Open Intelligence]], [[@2025__arXiv__Scaling Up RL - Unlocking Diverse Reasoning in LLMs via Prolonged Training]]) - **価値ネットワーク排除の合理性が「長 CoT では古典的クレジットアサインメントが探索を阻害する」という洞察で裏づけられた**: [[@2025__arXiv__Kimi K1.5 - Scaling Reinforcement Learning with LLMs]] は価値関数なしの RL フレームワークで o1 に匹敵する性能を達成し、その根拠として「中間ステップの誤りを含む探索も最終的に正解に到達すれば有益であり、価値関数による負のアドバンテージは試行錯誤を罰する」と論じた。これは RFT-FM が CA 系障害を最難と報告し、AutoForge が GRPO のグループレベルアドバンテージ推定の不安定性を指摘するのと通底する。価値関数排除(Kimi K1.5)・外部フィルタリング(DeepSWE)・環境レベル正規化(AutoForge)は、長い CoT のクレジットアサインメント問題に対する 3 つの直交する対処法である。(Source: [[@2025__arXiv__Kimi K1.5 - Scaling Reinforcement Learning with LLMs]], [[@2026__arXiv__Towards Robust LLM Post-Training - Automatic Failure Management for Reinforcement Fine-Tuning]], [[@2025__arXiv__AutoForge - Environment Synthesis for Agentic RL]], [[@2025__Together AI__DeepSWE - Training a Fully Open-sourced State-of-the-Art Coding Agent by Scaling RL]]) - **Kimi K1.5 の long2short 手法群は、テスト時計算とトークン効率のトレードオフを制御する 4 つの蒸留パスを体系化した**: モデルマージ(訓練不要)、最短リジェクションサンプリング(SFT)、DPO(選好学習)、long2short RL(長さペナルティ強化)の比較で long2short RL が最高のトークン効率を示した。IsoCompute Playbook が訓練時のサンプリング計算量配分を処方するのに対し、long2short はテスト時のトークン効率配分を扱う——訓練時とテスト時の計算最適化が表裏の関係にある。(Source: [[@2025__arXiv__Kimi K1.5 - Scaling Reinforcement Learning with LLMs]], [[@2026__arXiv__IsoCompute Playbook - Optimally Scaling Sampling Compute for LLM Reinforcement Learning]]) - **PBRFT と Agentic RL の形式的境界が MDP/POMDP の対比で初めて定式化された**: [[@2025__arXiv__The Landscape of Agentic Reinforcement Learning]] は PBRFT を退化 MDP（T=1、決定論的遷移、スカラー報酬）、Agentic RL を POMDP（T>1、確率的遷移、ステップレベル報酬）として形式化した。RFT-FM が障害管理対象とする「RFT」は PBRFT 寄りだが、Cast-R1 や DeepSWE はむしろ Agentic RL 側に位置する。同じ RFT と呼ばれる手法群が MDP 構造によって障害モードが質的に異なりうることを示す。(Source: [[@2025__arXiv__The Landscape of Agentic Reinforcement Learning]] §2 表 1, [[@2026__arXiv__Towards Robust LLM Post-Training - Automatic Failure Management for Reinforcement Fine-Tuning]], [[@2026__arXiv__Cast-R1 - Learning Tool-Augmented Sequential Decision Policies for Time Series Forecasting]]) - **RFT(GRPO)が「LLM 推論・コード生成の事後学習」から「時系列予測エージェントのポリシー学習」へ応用領域を広げている**: 本 wiki が RFT を最初に扱った [[RFT-FM]] は RFT の訓練プロセスそのものの障害管理(reward hacking・KL explosion・entropy collapse)を対象としたが、[[Cast-R1]]([[@2026__arXiv__Cast-R1 - Learning Tool-Augmented Sequential Decision Policies for Time Series Forecasting]])は RFT を予測ドメインのエージェント学習手段として使う——GRPO(group size 8・KL 係数 0.04)で予測の意思決定(計画・ツール選択・予測修正)を最適化し、エピソード末尾の遅延・疎報酬下で複数軌跡の相対性能を対比する。両ソースとも GRPO の中心課題を「遅延・疎報酬下の credit assignment」に置く点で一致し、RFT-FM が CA 系障害を最難と報告するのと、Cast-R1 が動的記憶を credit assignment の鍵とするのは表裏の関係。さらに Cast-R1 のマルチビュー報酬(MSE + trend/seasonal + turning point + format/length penalty)は手設計の重み付き和で、報酬成分除去のアブレーション(Pred. Error 除去が最大劣化 ETTh1 6.06→13.44)が「報酬設計の誤りが訓練を歪める」という RFT-FM の主張をドメインを変えて裏づける。(Source: [[@2026__arXiv__Towards Robust LLM Post-Training - Automatic Failure Management for Reinforcement Fine-Tuning]], [[@2026__arXiv__Cast-R1 - Learning Tool-Augmented Sequential Decision Policies for Time Series Forecasting]]) - **ドメイン特化事前学習→大規模非同期 RL のパイプラインが、汎用フロンティアモデルとコスト精度のパレート最適で競合する**: [[Composer 2]]([[@2026__arXiv__Composer 2 Technical Report]])は [[Kimi K2.5]] ベースの 1.04T/32B MoE を、コード特化の継続事前学習(パープレキシティと下流 RL 報酬の対数線形相関を確認)の後、Dr. GRPO 変種による大規模非同期 RL(4 サービス分離: 訓練/環境/推論/評価)で訓練し、CursorBench 61.3・SWE-bench Multilingual 73.7 を達成する。RL が平均性能と best-of-K 性能の双方を同時に改善する証拠を示し、「RL は既知パスの確率再配分にすぎない」という懸念を否定する。DeepSWE の「汎用モデル + 純粋 RL」、Nemotron 3 の「マルチ環境同時 RL」と合わせ、RFT パイプラインの設計空間は「ドメイン知識の注入方法 × RL の範囲(ドメイン特化 vs マルチドメイン同時)」の 2 軸に広がりつつある。(Source: [[@2026__arXiv__Composer 2 Technical Report]], [[@2025__Together AI__DeepSWE - Training a Fully Open-sourced State-of-the-Art Coding Agent by Scaling RL]], [[@2025__arXiv__Nemotron 3 - Efficient and Open Intelligence]]) - **CISPO は GRPO/DAPO のトークンクリッピング問題の根本原因を特定し、IS 重みクリッピングで全トークンの勾配寄与を保持する代替策を提示した**: [[@2025__arXiv__MiniMax-M1 - Scaling Test-Time Compute Efficiently with Lightning Attention]] は、GRPO のクリッピング操作が省察トークン("However"、"Wait" 等)のように確率が低いが推論の「分岐点」として重要なトークンを最初のオンポリシー更新後に排除する障害モードを特定し、[[CISPO]] を提案した。RFT-FM が credit assignment 系障害(CA)を最難と報告するのと対照的に、CISPO はクリッピングされるトークン種別(省察トークン)まで踏み込んで障害の構造を特定している。「どのトークンが排除されるか」のメカニズム理解は、CA 系障害の検知精度向上にも示唆を与える。(Source: [[@2025__arXiv__MiniMax-M1 - Scaling Test-Time Compute Efficiently with Lightning Attention]], [[@2026__arXiv__Towards Robust LLM Post-Training - Automatic Failure Management for Reinforcement Fine-Tuning]]) - **自己批判型ルーブリック報酬が検証可能報酬の適用範囲を主観タスクに拡張する**: [[@2025__arXiv__Kimi K2 - Open Agentic Intelligence]] は RLVR(検証可能報酬)と自己批判型ルーブリック報酬を統合し、検証不能な主観的タスク(要約・対話・創作)にも RL 信号を適用する閉ループ設計を取る。DeepSWE が二値報酬のみのスパースな信号で成功し、Cursor が密なテキストフィードバックで成功した「報酬の粒度」軸に対し、Kimi K2 は「報酬の生成元」を LLM 自身に移す直交的設計を加える。RFT-FM が報酬設計の誤りを訓練障害として分類するのと対照的に、Kimi K2 の自己批判報酬はモデル能力の向上とともに報酬品質も改善される構造を意図する。ただし自己批判の品質保証は外部検証に依存しないため、reward hacking と自己批判劣化のリスクが共存する。(Source: [[@2025__arXiv__Kimi K2 - Open Agentic Intelligence]], [[@2025__Together AI__DeepSWE - Training a Fully Open-sourced State-of-the-Art Coding Agent by Scaling RL]], [[@2026__Cursor__Introducing Composer 2.5]], [[@2026__arXiv__Towards Robust LLM Post-Training - Automatic Failure Management for Reinforcement Fine-Tuning]]) - **OLMo 3 の OlmoRL は KL 正則化除去と非同期パイプライン化を同時に採用し、長推論チェーン RL の設計空間を拡張した**: [[@2025__arXiv__OLMo 3]] の [[OlmoRL]] は [[GRPO]] ベースに 7 つの改善を統合し、とりわけ KL 損失なし・標準偏差正規化なしという設計を取る。Scaling Up RL が KL 正則化除去でエントロピー崩壊を報告し、RFT-FM が KL explosion を訓練障害として分類するのと対照的に、OlmoRL は DPO による事前の選好チューニングで方策を安定させた上で KL を除去し、長推論チェーン（平均 10K+ トークン）の探索を促進する。さらに完全非同期アーキテクチャ（[[DeepSpeed]] 学習器 + [[vLLM]] アクタープール）で OLMo 2 比 4 倍のスループットを達成し、[[PipelineRL]] / [[ScaleRL]] と類似の設計を独立に実現した。「DPO で方策を安定化してから KL なし RL を実行する」という段階的設計は、KL の過大と過小の両端が問題になるという既存の知見に対する実用的な解法である。(Source: [[@2025__arXiv__OLMo 3]], [[@2025__arXiv__Scaling Up RL - Unlocking Diverse Reasoning in LLMs via Prolonged Training]], [[@2026__arXiv__Towards Robust LLM Post-Training - Automatic Failure Management for Reinforcement Fine-Tuning]]) - **Delta Learning は SFT 飽和後の選好チューニングの有効性を「能力デルタの質」で説明する新しいフレームワークを提示した**: [[@2025__arXiv__OLMo 3]] は、SFT で性能が飽和した後、同じ強力なモデルの出力を SFT データとして追加しても性能が低下する一方、より弱いモデルとの対照ペア（Qwen 3 32B chosen / Qwen 3 0.6B rejected）による DPO が推論フロンティアを拡張することを実証した。DeepSWE の SFT ウォームスタートの否定的結果や、Kimi K1.5 の long2short DPO と通底するが、OLMo 3 の「能力デルタ」フレームワークは DPO データの設計原則を明示化した点で独自である。(Source: [[@2025__arXiv__OLMo 3]], [[@2025__Together AI__DeepSWE - Training a Fully Open-sourced State-of-the-Art Coding Agent by Scaling RL]], [[@2025__arXiv__Kimi K1.5 - Scaling Reinforcement Learning with LLMs]]) - **DeepSeek-R1 は「SFT なし RL → コールドスタート SFT → RL → リジェクションサンプリング SFT → RL」の反復パイプラインが SFT と RL の相補性を制御する設計解であることを大規模に実証した**: [[@2025__arXiv__DeepSeek-R1 - Incentivizing Reasoning Capability in LLMs via Reinforcement Learning]] の [[DeepSeek-R1-Zero]] は SFT なしの純粋 RL で省察・自己検証・aha モーメントといった推論パターンを創発させたが、可読性と汎用能力に欠ける。最終的な [[DeepSeek-R1]] はこれを 4 段階パイプラインで制御する——まずコールドスタート SFT で「可読性のある思考フォーマット」のバイアスだけを注入し、次に推論特化 RL で能力を伸ばし、リジェクションサンプリング SFT で非推論能力を追加し、最後に汎用 RL で選好最適化する。DeepSWE が SFT ウォームスタートの否定的結果を報告し、OLMo 3 が「DPO で安定化してから RL」を採用し、Cast-R1 が「SFT + GRPO 2 段階」で成功するのと合わせると、SFT と RL の最適な組み合わせ方はタスクの特性(推論の複雑さ、検証可能性、探索空間の広さ)に強く依存するという知見が収束しつつある。ただし DeepSeek-R1 の知見はさらに踏み込んで、「コールドスタートの SFT は数千件という少量でよく、主な役割はフォーマットと一人称視点の注入にすぎない」ことを示し、SFT のバイアスの程度と量が RL の探索を阻害しない閾値を示唆する。(Source: [[@2025__arXiv__DeepSeek-R1 - Incentivizing Reasoning Capability in LLMs via Reinforcement Learning]], [[@2025__Together AI__DeepSWE - Training a Fully Open-sourced State-of-the-Art Coding Agent by Scaling RL]], [[@2025__arXiv__OLMo 3]], [[@2026__arXiv__Cast-R1 - Learning Tool-Augmented Sequential Decision Policies for Time Series Forecasting]]) - **DeepSeek-R1 の規則ベース報酬設計は、ニューラル報酬モデルの脆弱性を回避する実用的代替策として大規模に検証された**: DeepSeek-R1-Zero はニューラル報酬モデルを一切使わず、正確性報酬(最終回答の正否)とフォーマット報酬(`<think>` タグ)の規則ベース報酬のみで 671B MoE の RL を安定的に完遂した。RFT-FM が報酬ハッキングを訓練障害の一類型として分類し、Cursor が報酬ハッキングの産業事例を報告するのに対し、DeepSeek-R1 は「検証可能なタスクでは規則ベース報酬がニューラル報酬モデルより頑健」という原則を提示する。一方で、汎用タスク(作文・QA)にはニューラル報酬モデル(有用性・安全性)が必要となり、その際も訓練ステップを 400 に制限して報酬ハッキングを抑制するという「報酬の種類 × 訓練量」の設計指針を示した。(Source: [[@2025__arXiv__DeepSeek-R1 - Incentivizing Reasoning Capability in LLMs via Reinforcement Learning]], [[@2026__arXiv__Towards Robust LLM Post-Training - Automatic Failure Management for Reinforcement Fine-Tuning]], [[@2026__Cursor__Introducing Composer 2.5]]) - **ベースモデルの規模が RL からの推論能力創発の必要条件であることが実証された**: DeepSeek-R1 は 7B dense と 16B MoE では AIME で改善が見られず、32B dense 以上(または 230B MoE 以上)で初めて純粋 RL の効果が確認されたと報告する。Scaling Behaviors 論文が k(N) の飽和を 32B 以降で報告するのと整合し、Scaling Up RL が 1.5B モデルで成功するのは DAPO 拡張と KL 正則化の組み合わせが小規模モデルの制約を部分的に補償する可能性を示唆する。ベースモデルの「RL 準備度」(事前学習で獲得した推論軌跡の質・量)が純粋 RL の成否を決める閾値として浮上する。(Source: [[@2025__arXiv__DeepSeek-R1 - Incentivizing Reasoning Capability in LLMs via Reinforcement Learning]], [[@2025__arXiv__Scaling Behaviors of LLM Reinforcement Learning Post-Training]], [[@2025__arXiv__Scaling Up RL - Unlocking Diverse Reasoning in LLMs via Prolonged Training]]) - **蒸留が RL より効率的だが、知能のフロンティア拡張には不十分であるという二面的結論が示された**: DeepSeek-R1 は 800K サンプルの SFT のみの蒸留で 1.5B モデルを GPT-4o 超にまで引き上げる一方、Qwen2.5-32B に大規模 RL のみを適用した場合を蒸留 32B が大幅に上回った。しかし「人間の知能を超える」にはより強力なベースモデルと大規模 RL が不可欠だと結論する。Kimi K1.5 の long2short 蒸留がテスト時計算効率の最適化に焦点を当て、Nemotron 3 のマルチ環境 RL がフロンティア拡張を目指すのと合わせると、「蒸留 = 既存能力の効率的圧縮」「RL = フロンティアの押し出し」という役割分担が複数ソースから裏づけられる。(Source: [[@2025__arXiv__DeepSeek-R1 - Incentivizing Reasoning Capability in LLMs via Reinforcement Learning]], [[@2025__arXiv__Kimi K1.5 - Scaling Reinforcement Learning with LLMs]], [[@2025__arXiv__Nemotron 3 - Efficient and Open Intelligence]]) - **数学特化コーパスの反復構築と GRPO の組み合わせが「ドメイン特化 RFT」の原型を確立した**: [[@2024__arXiv__DeepSeekMath - Pushing the Limits of Mathematical Reasoning in Open Language Models]] は、(1) fastText 分類器の反復適用で Common Crawl から 120B 数学トークンを収集するデータ選別と、(2) 価値モデルを廃した [[GRPO]] による RL を組み合わせ、7B モデルで外部ツールなし MATH 51.7% を達成した。本 wiki が集約してきた後続の RFT 研究（DeepSeek-R1 の 4 段階パイプライン・DeepSWE の GRPO++・Nemotron 3 のマルチ環境同時 RL）はすべて GRPO をアルゴリズムの土台としており、DeepSeekMath がそのオリジンペーパーに位置づけられる。「ドメイン特化コーパス構築 → 継続事前学習 → GRPO による RL」という 3 段パイプラインは、後続の DeepSeek-Coder・DeepSeek-V3.2 のスペシャリスト蒸留→混合 RL にも継承される設計思想の起点である。(Source: [[@2024__arXiv__DeepSeekMath - Pushing the Limits of Mathematical Reasoning in Open Language Models]], [[@2025__arXiv__DeepSeek-R1 - Incentivizing Reasoning Capability in LLMs via Reinforcement Learning]], [[@2025__arXiv__DeepSeek-V3.2 - Pushing the Frontier of Open Large Language Models]]) - **スペシャリスト蒸留→混合 RL の 2 段階パイプラインが事前学習コスト 10% 超の RL スケーリングを実現した**: [[@2025__arXiv__DeepSeek-V3.2 - Pushing the Frontier of Open Large Language Models]] は 6 ドメイン（数学・プログラミング・論理推論・一般エージェント・エージェントコーディング・エージェント検索）のスペシャリストモデルを RL で個別に訓練し、蒸留データで統合モデルを作成した後に混合 RL で差を埋める設計を取る。Nemotron 3 の「マルチ環境同時 RL」が段階的手法の能力劣化を回避する設計なのに対し、DeepSeek-V3.2 は段階的だがスペシャリスト蒸留を中間ステップに挟むことでドメイン間干渉を構造的に分離する。さらに GRPO の安定化に不偏 KL 推定・オフポリシーシーケンスマスキング・Keep Routing・Keep Sampling Mask の 4 技術を適用し、事前学習コスト 10% 超の大規模 RL を安定的に完走させた。RFT-FM が KL explosion をオフポリシー性に起因する訓練障害として分類するのと対照的に、DeepSeek-V3.2 はオフポリシーシーケンスマスキングで負のアドバンテージ×高ポリシー乖離のシーケンスを事前排除し、DeepSWE の Compact Filtering と類似の「障害のアルゴリズム内排除」設計を取る。(Source: [[@2025__arXiv__DeepSeek-V3.2 - Pushing the Frontier of Open Large Language Models]], [[@2025__arXiv__Nemotron 3 - Efficient and Open Intelligence]], [[@2026__arXiv__Towards Robust LLM Post-Training - Automatic Failure Management for Reinforcement Fine-Tuning]]) - **TSFM 専用サーベイが「強化 fine-tuning」を事後学習の独立パラダイムとして体系化した**: [[@2026__techRxiv__From Pre-training to Post-training - A Survey on Time Series Foundation Models]] は事後学習を SFT・協調(LoRA/Adapter/多モーダル/KD)・強化の 3 パラダイムに分け、強化 fine-tuning を**推論駆動(reasoning-driven)** と**非推論(non-reasoning)** に二分する。推論駆動側は GRPO + chain-of-thought + LLM 判別器の組み合わせ(Zhang+ TimeMaster の token-level GRPO、Luo+ SFT+GRPO で trend/seasonality/extrema 整合、Xiao+ 金融 volatility-normalized 報酬、Liu+ staged RL with dynamic reward)、非推論側は PPO(rule-based 報酬)・DPO(選好データ)が中心(Qi+ TPO で long-tail 予測 +20.05pt、Niu+ LangTime の cross-domain 事前学習 + 非推論 fine-tuning)。本 wiki が NLP・コード生成中心に集約してきた GRPO の credit assignment 脆弱性([[RFT-FM]]・[[Cast-R1]]・[[AutoForge]])、規則ベース報酬の堅牢性([[DeepSeek-R1]])、SFT + RL の二段階設計([[DeepSeek-R1]]・[[Cast-R1]])といった知見が、TSFM ドメインでも同じ設計課題として再現することを示唆する。サーベイ自身は reasoning-driven RL を「萌芽期」と位置づけ、引用論文は 4 本に留まる——本 wiki の RFT 横断的知見がそのまま TSFM の RL 設計指針として転用可能な領域。(Source: [[@2026__techRxiv__From Pre-training to Post-training - A Survey on Time Series Foundation Models]], [[@2026__arXiv__Cast-R1 - Learning Tool-Augmented Sequential Decision Policies for Time Series Forecasting]], [[@2025__arXiv__DeepSeek-R1 - Incentivizing Reasoning Capability in LLMs via Reinforcement Learning]]) - **「コールドスタート CoT + GRPO」が時系列・映像ドメインへ展開し、データ効率の極端な改善が観察された**: [[@2025__NeurIPS__Time-R1 - Post-Training Large Vision Language Model for Temporal Video Grounding]] は 2.5K サンプルの RLVR(GRPO + tIoU 報酬)で 339K サンプル(136 倍)の SFT-LoRA を超え、[[@2026__ICLR2026__TimeOmni-1 - Incentivizing Complex Reasoning with Time Series in Large Language Models]] は SFT(Stage 1)で時系列推論の分解戦略を注入してから GRPO(Stage 2)を載せる二段階訓練で GPT-4.1 を因果発見精度 40.6%(ID)上回る。両者とも DeepSeek-R1 の規則ベース報酬戦略を継承しながら、ドメイン固有の報酬関数(tIoU・MAE 正規化指数減衰)を加えた点で「検証可能報酬」の概念を新ドメインに拡張した位置にある。詳細は [[検証可能報酬による強化学習]] を参照。(Source: [[@2025__NeurIPS__Time-R1 - Post-Training Large Vision Language Model for Temporal Video Grounding]], [[@2026__ICLR2026__TimeOmni-1 - Incentivizing Complex Reasoning with Time Series in Large Language Models]], [[@2025__arXiv__DeepSeek-R1 - Incentivizing Reasoning Capability in LLMs via Reinforcement Learning]]) - **訓練データ 1 問での RLVR が「知識獲得と推論能力獲得の分離」という原理的知見を提示した**: [[joisino-訓練データ1個推論性能倍-2025]] は Wang+ NeurIPS 2025 を解説し、1209 問全データと遜色ない性能を **1 問 RLVR** で達成できることを示す。エントロピー増大正則化により内省語（rethink/recheck/recalculate）が自発的に習得され、思考が崩壊しても正答にたどり着く頑健な推論が得られる。この結果は「訓練データの多様性よりも、深く考え続ける経験が推論能力を育てる」という仮説を支持し、[[検証可能報酬による強化学習]] のデータ効率に関する知見（2.5K サンプルで 339K SFT を超える Time-R1）の極端な延長として位置づけられる。ただし RFT が付加できる能力の上限が現状技術では限定的であるため 1 問で足りるという解釈も成立し、スケーリングの限界の議論と接続する。(Source: [[joisino-訓練データ1個推論性能倍-2025]], [[@2025__NeurIPS__Time-R1 - Post-Training Large Vision Language Model for Temporal Video Grounding]]) - **「ジョイント訓練の能力補完」が単一モデル内タスク統合の新パターンを示した**: TimeOmni-1 は 4 アトミックタスク(シナリオ理解・因果発見・イベント認識予測・意思決定)をジョイント訓練すると意思決定精度が 40.9% → 45.7% → 47.9% と漸増する能力補完を実証した。Nemotron 3 の「マルチ環境同時 RL」が段階的手法の能力劣化を回避する設計だったのに対し、TimeOmni-1 はジョイント訓練が個別タスクの精度を引き上げる正方向の効果を「train-once use-across-tasks」の枠組みで定量化した。タスク間の干渉ではなく相補性が顕在化する条件は何か、新たな問いを提示する。(Source: [[@2026__ICLR2026__TimeOmni-1 - Incentivizing Complex Reasoning with Time Series in Large Language Models]], [[@2025__arXiv__Nemotron 3 - Efficient and Open Intelligence]]) ## 未解決の問い - FlowXpert の Planner(PPO)と Scorer(DPO)の共進化は「AI フィードバックの信頼性」をループ内で改善する設計だが、同様の共進化が他の AIOps ドメイン(RCA・異常検知)にも転用できるか。Scorer が DPO で判断力を高めるほど Planner への報酬品質が上がる正のフィードバックが成立する条件は何か。(Source: [[@2025__KDD__FlowXpert - Expertizing Troubleshooting Workflow Orchestration with Knowledge Base and Multi-Agent Coevolution]]) - RFT 障害管理ベンチマーク([[RFT-FaultBench]])は単一の算術的推論タスク・[[OpenRLHF]]・8-GPU 構成に限定される。論文自身が「実世界はより多様で絡み合った障害を持つ」と認めるとおり、この制御された注入環境で得た fault fingerprint の区別可能性は、実運用の RFT(コード生成・多段推論・ツール利用)にどこまで転移するか。(Source: [[@2026__arXiv__Towards Robust LLM Post-Training - Automatic Failure Management for Reinforcement Fine-Tuning]]) - auto remediation の全体 Median Severity Change が -5.84%(失敗介入が訓練を悪化させうる)で、RF/OD/CA は中央値が負。マイクロサービス修復で見えた「安全に巻き戻せる反復」([[障害緩和]]・[[Transactional No-Regression]])のような安全制約を RFT 訓練の介入(checkpoint へのロールバック・ハイパーパラメータ調整)にどう持ち込めば、one-shot 介入の不安定性を抑えられるか。(Source: [[@2026__arXiv__Towards Robust LLM Post-Training - Automatic Failure Management for Reinforcement Fine-Tuning]]) - Credit Assignment 系障害(CA-1/2/3)は粗いテレメトリでは健全ランに近く、検知・診断とも全手法で最難。reward/KL/entropy/length の単一信号でなく多信号の構造化シグネチャでしか区別できないこの種の「微妙な障害」を、実時間で(訓練を止めずに)捉える軽量な観測手法はあるか([[異常検知]] の「常時稼働には LLM が重い」制約と接続)。 - [[Cast-R1]] のマルチビュー報酬は MSE・trend/seasonal・turning point・format/length の手設計重み付き和。報酬成分のバランスを自動調整する方法や、format/length penalty を悪用する reward hacking([[RFT-FM]] が訓練障害として挙げる)が予測エージェントでも生じるかは未検証。(Source: [[@2026__arXiv__Cast-R1 - Learning Tool-Augmented Sequential Decision Policies for Time Series Forecasting]]) - DeepSWE の SFT ウォームスタートの否定的結果と Cast-R1 の SFT + GRPO 2 段階の成功は、「SFT が RL の探索を妨げるか助けるか」がドメインに依存することを示唆する。ソフトウェアエンジニアリング(広大なコードベース探索)と時系列予測(有限ツール選択)で探索空間の構造がどう異なり、SFT バイアスの影響がどう変わるかを実験的に検証する必要がある。(Source: [[@2025__Together AI__DeepSWE - Training a Fully Open-sourced State-of-the-Art Coding Agent by Scaling RL]], [[@2026__arXiv__Cast-R1 - Learning Tool-Augmented Sequential Decision Policies for Time Series Forecasting]]) - Cursor の Composer 2.5 で観察された報酬ハッキング（型キャッシュ逆工学・バイトコード逆コンパイル）は、RFT-FM が訓練障害として分類する報酬ハッキングと同種だが、高度な問題解決能力の裏返しでもある。報酬ハッキングを「障害として抑制すべきもの」と「創発的能力として許容すべきもの」に判別する基準はあるか。合成タスクの設計(特徴削除の粒度・テスト検証の厳密さ)がこの境界をどこに設定するかは未検証。(Source: [[@2026__Cursor__Introducing Composer 2.5]], [[@2026__arXiv__Towards Robust LLM Post-Training - Automatic Failure Management for Reinforcement Fine-Tuning]]) - Golubev+(2025)は選択的 RFT(テスト通過軌跡のみ + フォーマットエラーターンの損失マスク)が SWE ドメインで 11% → 20% のウォームアップに有効であること、さらに DAPO の RL 段階が 20% → 39% へ引き上げることを実証した。DeepSWE がフルデモンストレーション SFT のウォームスタートに否定的結果を報告したのと対照的で、**選択的 RFT とフルデモンストレーション SFT では模倣バイアスの程度が異なり、前者は探索余地を残す**可能性がある。Cast-R1 も SFT + GRPO の 2 段階で成功しており、「SFT の選択性」が RL との相性を決める要因として浮上する。(Source: [[@2025__arXiv__Training Long-Context Multi-Turn SWE Agents with Reinforcement Learning]], [[@2025__Together AI__DeepSWE - Training a Fully Open-sourced State-of-the-Art Coding Agent by Scaling RL]], [[@2026__arXiv__Cast-R1 - Learning Tool-Augmented Sequential Decision Policies for Time Series Forecasting]]) ## 関連 - ソース: [[joisino-訓練データ1個推論性能倍-2025]] / [[@2025__arXiv__DeepSeek-R1 - Incentivizing Reasoning Capability in LLMs via Reinforcement Learning]] / [[@2026__arXiv__Towards Robust LLM Post-Training - Automatic Failure Management for Reinforcement Fine-Tuning]] / [[@2026__arXiv__Cast-R1 - Learning Tool-Augmented Sequential Decision Policies for Time Series Forecasting]] / [[@2025__KDD__FlowXpert - Expertizing Troubleshooting Workflow Orchestration with Knowledge Base and Multi-Agent Coevolution]] / [[@2025__arXiv__AutoForge - Environment Synthesis for Agentic RL]] / [[@2025__Together AI__DeepSWE - Training a Fully Open-sourced State-of-the-Art Coding Agent by Scaling RL]] / [[@2025__arXiv__Scaling Behaviors of LLM Reinforcement Learning Post-Training]] / [[@2025__arXiv__Scaling Up RL - Unlocking Diverse Reasoning in LLMs via Prolonged Training]] / [[@2025__arXiv__The Art of Scaling Reinforcement Learning Compute for LLMs]] / [[@2025__arXiv__Training Long-Context Multi-Turn SWE Agents with Reinforcement Learning]] / [[@2025__arXiv__MiniMax-M1 - Scaling Test-Time Compute Efficiently with Lightning Attention]] - 概念: [[エージェント型時系列予測]] / [[エージェント型強化学習]] / [[AIOps]] / [[異常検知]] / [[根本原因分析]] / [[障害緩和]] / [[障害注入]] / [[LLM学習モニタリング]] / [[LLM分散学習]] - エンティティ: [[RFT-FaultBench]] / [[RFT-FM]] / [[OpenRLHF]] / [[Cast-R1]] / [[AutoForge]] / [[GRPO]] / [[VeRL]] / [[ScaleRL]] / [[PipelineRL]] / [[OlmoRL]] / [[OLMo 3]] / [[DeepSeek-R1]] / [[DeepSeek-R1-Zero]] / [[DeepSeek-AI]] - 概念: [[強化学習スケーリング]] / [[エージェント型強化学習]] / [[エージェント型時系列予測]] / [[AIOps]] / [[異常検知]] / [[根本原因分析]] / [[障害緩和]] / [[障害注入]] / [[LLM学習モニタリング]] / [[LLM分散学習]] / [[DeepSWE]] / [[rLLM]] - 関連 MOC: [[LLM4SRE - MOC]] ## 出典 - [[@2026__arXiv__Towards Robust LLM Post-Training - Automatic Failure Management for Reinforcement Fine-Tuning]](§II-A Reinforcement Fine-Tuning, §II-B Software Failure Management, §VII-A Robust Reinforcement Fine-Tuning, §V RFT-FM) - [[@2026__arXiv__Cast-R1 - Learning Tool-Augmented Sequential Decision Policies for Time Series Forecasting]](§3.5 2 段階学習 SFT + GRPO・マルチビュー報酬・カリキュラム, §4.3.3 学習戦略アブレーション, §4.4.1 報酬設計アブレーション) - [[@2025__arXiv__AutoForge - Environment Synthesis for Agentic RL]](§3.4 ERPO: GRPO の環境レベル拡張・MEU・インターリーブドシンキング) - [[@2025__Together AI__DeepSWE - Training a Fully Open-sourced State-of-the-Art Coding Agent by Scaling RL]](GRPO++ アルゴリズム・Compact Filtering・SFT ウォームスタートの否定的結果・創発的行動) - [[@2025__arXiv__Scaling Behaviors of LLM Reinforcement Learning Post-Training]](§3 Empirical Results and Scaling Laws, §5 Discussion) - [[@2025__arXiv__The Landscape of Agentic Reinforcement Learning]]（§2 PBRFT vs Agentic RL の MDP/POMDP 形式化, 表 1 7 要素比較） - [[@2026__arXiv__IsoCompute Playbook - Optimally Scaling Sampling Compute for LLM Reinforcement Learning]](§3 Healthy RL Recipe, §4 Allocating Sampling Compute, §5.1 Scaling n Addresses Interference) - [[@2025__arXiv__Scaling Up RL - Unlocking Diverse Reasoning in LLMs via Prolonged Training]](§3 Approach: KL penalty + reference policy reset, §5 Ablation Studies: KL removal → entropy collapse) - [[@2025__arXiv__The Art of Scaling Reinforcement Learning Compute for LLMs]](§2.1 Predictive compute-scaling, §3 Empirical Study, §4 ScaleRL Recipe) - [[@2025__arXiv__Training Long-Context Multi-Turn SWE Agents with Reinforcement Learning]](§4.2 RFT: 選択的 SFT + フォーマットエラーターンの損失マスク、§4.3 DAPO ベースマルチターン RL、§5.2 サンプリング分布の一貫性) - [[@2025__arXiv__Kimi K1.5 - Scaling Reinforcement Learning with LLMs]](§2.3 RL: 価値ネットワーク排除の根拠、§2.3.3 長さペナルティ、§2.4 long2short 4 手法、§3.4 long2short 結果) - [[@2026__Cursor__Introducing Composer 2.5]](ターゲット RL・テキストフィードバック・合成データ 25 倍拡大・報酬ハッキング事例・Sharded Muon) - [[@2025__arXiv__Nemotron 3 - Efficient and Open Intelligence]](§2.6 マルチ環境同時 RL: GRPO + マスク付き重要度サンプリング + 非同期 RL + MTP ロールアウト加速。段階的手法より安定し報酬ハッキングも抑制) - [[@2025__arXiv__Kimi K2 - Open Agentic Intelligence]]（§5 エージェント型データ合成・ルーブリック報酬、§6 RLVR + 自己批判型ルーブリック報酬の統合 RL） - [[@2025__Moonshot AI__Kimi-Researcher - End-to-End RL Training for Emerging Agentic Capabilities]]（REINFORCE、ガンマ減衰報酬、負例制御、SFT 不要の産業実証） - [[@2025__arXiv__OLMo 3]]（§7.2 OlmoRL インフラ: GRPO 7 改善・完全非同期パイプライン・4 倍スループット、§7.1.2 Delta Learning: DPO 選好チューニング、§7.3 RL-Zero: ベースからの直接 RLVR） - [[@2025__arXiv__DeepSeek-R1 - Incentivizing Reasoning Capability in LLMs via Reinforcement Learning]]（§2 DeepSeek-R1-Zero: 純粋 RL 推論創発・GRPO + 規則ベース報酬、§3 DeepSeek-R1: 4 段階パイプライン・コールドスタート SFT・言語一貫性報酬・報酬ハッキング制御、§F 蒸留 vs RL 比較、§G Key Findings: ベースモデル規模閾値・検証器信頼性・SFT と RL の相補性） - [[@2025__arXiv__DeepSeek-V3.2 - Pushing the Frontier of Open Large Language Models]]（§3 Post-Training: スペシャリスト蒸留→混合 RL、GRPO 安定化 4 技術（不偏 KL 推定・オフポリシーシーケンスマスキング・Keep Routing・Keep Sampling Mask）、事前学習コスト 10% 超の RL 計算予算、§3.2 大規模エージェントタスク合成パイプライン）