強化学習スケーリング - yuuk1's Digital Garden

# 強化学習スケーリング ## 定義強化学習スケーリング(RL scaling laws)は、LLM の RL 事後学習(post-training)においてモデル規模 N・計算量 C・データ量 D と性能の関係を定量的に記述し、設計選択のスケーラビリティを予測的に評価する研究枠組みである。事前学習のスケーリング則(Kaplan+ 2020、Hoffmann+ 2022)を RL 事後学習に拡張する試みであり、2 つの相補的なモデル化が提案されている: (1) **べき乗則モデル** — テスト損失 L に対し log L(N,X) = −k(N)·log X + E(N) という対数線形関係を仮定し、学習効率 k(N) がモデル規模とともに飽和する傾向を捉える (Source: [[@2025__arXiv__Scaling Behaviors of LLM Reinforcement Learning Post-Training]] §1, §3)。(2) **シグモイドモデル** — 正答率のような有界メトリクスに対し R_C − R_0 = (A − R_0) / (1 + (C_mid/C)^B) で漸近性能 A・計算効率 B・中間点 C_mid の 3 パラメータに分離し、小規模ランから大規模性能を外挿する (Source: [[@2025__arXiv__The Art of Scaling Reinforcement Learning Compute for LLMs]] §2.1)。 ## 横断的知見 - **スケーリング則の「対数線形フィッティング」と「実践的段階訓練レシピ」は相補的視点である**: [[@2025__arXiv__Scaling Behaviors of LLM Reinforcement Learning Post-Training]] は計算量と性能のべき乗則を定量化するマクロ的アプローチを取るのに対し、[[@2025__arXiv__Scaling Up RL - Unlocking Diverse Reasoning in LLMs via Prolonged Training]] は同じ GRPO に基づきながらも 8 ランの逐次訓練で KL・エントロピー・検証スコアを監視しハードリセットを入れるミクロ的アプローチを取る。前者はスケーリングの漸近予測に強く、後者は「長期 RL の道中で何が壊れるか」（エントロピー崩壊・コード性能の急落・応答長の暴走）を個別に対処する実践知を提供する。スケーリング則のフィッティングと段階的レシピの統合が次の課題となる。(Source: [[@2025__arXiv__Scaling Behaviors of LLM Reinforcement Learning Post-Training]], [[@2025__arXiv__Scaling Up RL - Unlocking Diverse Reasoning in LLMs via Prolonged Training]]) - **多ドメイン訓練は汎化を促進するが、ドメイン外汎化の限界は依然残る**: Scaling Behaviors 論文が「数学ドメインの RL は他ドメインへの汎化が乏しい」(§3.5)と報告するのに対し、Scaling Up RL は 5 ドメイン統合訓練でドメイン特化モデル（DeepScaleR・DeepCoder）と競争力ある性能を達成した。タスク多様性による訓練時の分布拡張がドメイン外汎化の部分的解決になりうることを示す一方、Reasoning Gym の arc・cognition・games では依然進展が限定的であり、推論スキルの根本的欠如はデータ拡張だけでは補えない可能性がある。(Source: [[@2025__arXiv__Scaling Behaviors of LLM Reinforcement Learning Post-Training]], [[@2025__arXiv__Scaling Up RL - Unlocking Diverse Reasoning in LLMs via Prolonged Training]]) - **べき乗則とシグモイドは相補的で、高計算域では収束する**: Scaling Behaviors 論文はテスト損失（非有界）にべき乗則を、ScaleRL 論文は正答率（有界メトリクス）にシグモイドを適用する。ScaleRL §A.4 はシグモイドの高計算域近似が A − D/C^B とべき乗則と同型になることを解析的に示しており、両モデルは計測対象の性質に応じた使い分けであって相互排他ではない。ただし ScaleRL はべき乗則が低計算域で非有界・フィッティング区間への感度が高いと報告し（100k ランで A=1.0 と過大予測）、シグモイドの安定性を優位とする。(Source: [[@2025__arXiv__The Art of Scaling Reinforcement Learning Compute for LLMs]] §A.4, [[@2025__arXiv__Scaling Behaviors of LLM Reinforcement Learning Post-Training]] §3) - **コンテキスト長が RL のスケーリング次元として同定され、モデル規模スケーリングとの代替関係が実証された**: [[@2025__arXiv__Kimi K1.5 - Scaling Reinforcement Learning with LLMs]] は RL のコンテキストウィンドウを 128k まで拡大し、応答長と性能の間に正の線形相関(傾き 2.46e-05〜4.24e-05)を確認した。さらに小さいモデルが長い CoT で大きいモデルに匹敵する性能に達するが、大きいモデルの方がトークン効率は高いことを示した。Scaling Behaviors 論文のモデル規模 N とデータ量 D のべき乗則に、コンテキスト長 L が第三の軸として加わる形であり、ScaleRL の漸近性能 A がコンテキスト長によっても変調される可能性を示唆する。Kimi K1.5 が「テスト時計算に予算がある場合は小モデル + 長コンテキストが代替策」と述べるのは、Scaling Behaviors の 32B vs 72B の性能交差(図 1)と整合する。(Source: [[@2025__arXiv__Kimi K1.5 - Scaling Reinforcement Learning with LLMs]], [[@2025__arXiv__Scaling Behaviors of LLM Reinforcement Learning Post-Training]], [[@2025__arXiv__The Art of Scaling Reinforcement Learning Compute for LLMs]]) - **パーシャルロールアウトが長コンテキスト RL のスケーリングの実現条件を提示**: Kimi K1.5 のパーシャルロールアウト(長い軌道を固定トークン予算で分割し前回の軌道を再利用)は、ScaleRL/IsoCompute Playbook が扱う計算量配分の問題を、軌道の逐次再利用という実装レベルで解決する。IsoCompute Playbook の最適並列ロールアウト数 n の議論に対し、Kimi K1.5 はロールアウト長方向の分割と非同期実行という直交するスケーリング手法を示す。(Source: [[@2025__arXiv__Kimi K1.5 - Scaling Reinforcement Learning with LLMs]], [[@2026__arXiv__IsoCompute Playbook - Optimally Scaling Sampling Compute for LLM Reinforcement Learning]]) - **「少計算での優位≠大計算での優位」が複数ソースで独立に確認**: Scaling Behaviors は 32B と 72B の性能交差（モデル規模軸）を、ScaleRL は DeepSeek(GRPO) と ScaleRL の性能交差（アルゴリズム軸）を、Scaling Up RL はハードリセットの有無で性能軌道が分岐する様を各々示す。異なる軸（モデル規模・アルゴリズム・訓練レジーム）で「苦い教訓」が独立再現されており、RL スケーリングにおいて小規模評価だけでの手法選択が危険であることを多角的に裏づける。(Source: [[@2025__arXiv__The Art of Scaling Reinforcement Learning Compute for LLMs]] 図 2, [[@2025__arXiv__Scaling Behaviors of LLM Reinforcement Learning Post-Training]] 図 1, [[@2025__arXiv__Scaling Up RL - Unlocking Diverse Reasoning in LLMs via Prolonged Training]]) - **エージェント型 RL のスケールアップには計算量・モデル規模・データ量・効率の 4 軸が独立に議論され始めた**: [[@2025__arXiv__The Landscape of Agentic Reinforcement Learning]] §6.2 は (1) 訓練計算量の延長が推論能力を体系的に改善するスケーリング則（ProRL, ProRLv2）、(2) モデル規模の増大がエントロピー崩壊を招きうるリスク、(3) 多ドメインデータの相乗効果と干渉、(4) POLARIS のデータ難易度校正や DFT の RL 原理のグラディエントスケーリングへの埋め込みを整理した。ScaleRL のシグモイドフレームワーク（漸近性能 A と計算効率 B の分離）および Scaling Behaviors のべき乗則（学習効率 k(N) の飽和）と合わせると、4 軸のスケーリング挙動を統一する理論的枠組みが次の課題として浮かび上がる。(Source: [[@2025__arXiv__The Landscape of Agentic Reinforcement Learning]] §6.2, [[@2025__arXiv__The Art of Scaling Reinforcement Learning Compute for LLMs]], [[@2025__arXiv__Scaling Behaviors of LLM Reinforcement Learning Post-Training]]) - **設計選択の効果は「漸近性能 A の天井を上げるもの」と「計算効率 B のみを変調するもの」に二分される**: ScaleRL の 400,000 GPU 時間のアブレーションにより、損失関数（CISPO vs DAPO）・FP32 精度修正・オフポリシー方式は漸近性能 A を変化させる一方、損失集約・アドバンテージ正規化・カリキュラムは主に B のみを変調することが判明した。Scaling Behaviors の学習効率 k(N) とあわせると、RL スケーリングの特性化には「何がスケーリングフロンティアを移動させるか」と「何がフロンティアへの到達速度を変えるか」の区別が本質的である。(Source: [[@2025__arXiv__The Art of Scaling Reinforcement Learning Compute for LLMs]] §3–4, 図 7) - **アーキテクチャ効率とアルゴリズム効率が RL 訓練コストに乗算的に作用する**: [[MiniMax-M1]] はハイブリッドアテンション([[Lightning Attention]] 7:ソフトマックス 1)によるロールアウト生成の近線形 FLOPS 化と、[[CISPO]](IS 重みクリッピング)による DAPO 比 2 倍のステップ効率を組み合わせ、456B MoE モデルの RL 全体を 512 [[H800]] GPU・3 週間・約 53.4 万ドルで完了した。ScaleRL のフレームワークで解釈すると、アーキテクチャ効率(ロールアウトの FLOPS 削減)は B(計算効率)を変調し、CISPO(トークンの勾配寄与保持)は A(漸近性能)を引き上げる側に分類される可能性がある。Scaling Behaviors / ScaleRL がソフトマックスアテンションベースのモデルで導出したスケーリング則が、ハイブリッドアテンションでも同型で成立するかは検証が必要。(Source: [[@2025__arXiv__MiniMax-M1 - Scaling Test-Time Compute Efficiently with Lightning Attention]], [[@2025__arXiv__The Art of Scaling Reinforcement Learning Compute for LLMs]]) - **GRPO の初出論文 DeepSeekMath は「ドメイン特化コーパス×RL」という縦断スケーリングの原型を提示した**: [[@2024__arXiv__DeepSeekMath - Pushing the Limits of Mathematical Reasoning in Open Language Models]] は 7B モデルに 120B 数学トークンの継続事前学習と [[GRPO]] による RL を適用し、MATH 51.7% という当時の公開モデル最高水準を達成した。規模の観点では 7B という小規模モデルで成立しており、DeepSeek-R1 が「32B 以上で純粋 RL が有効」と主張するモデル規模閾値とは矛盾するように見えるが、DeepSeekMath は「検証可能な数学」という高度に構造化されたドメインに限定した RL であり、汎用推論への RL スケーリングとは前提が異なる。この意味で DeepSeekMath は「ドメインを絞ることで小規模モデルでも RL が機能する」ことを示し、後続のドメイン特化 RL（DeepSeek-Coder・DeepSWE・Cast-R1 等）の共通の先例となっている。(Source: [[@2024__arXiv__DeepSeekMath - Pushing the Limits of Mathematical Reasoning in Open Language Models]], [[@2025__arXiv__DeepSeek-R1 - Incentivizing Reasoning Capability in LLMs via Reinforcement Learning]]) - **RL のスケーリングにはベースモデルの規模閾値が存在し、小規模モデルでは純粋 RL の効果が現れない**: [[@2025__arXiv__DeepSeek-R1 - Incentivizing Reasoning Capability in LLMs via Reinforcement Learning]] は 7B dense と 16B MoE では AIME 改善が観察されず、32B dense 以上(230B MoE 以上)で初めて純粋 RL が有効になったと報告する。Scaling Behaviors 論文が学習効率 k(N) の飽和を 32B 以降で報告するのと対照的に、DeepSeek-R1 は「小規模モデルではそもそも RL が機能しない閾値がある」ことを示す。これは Scaling Behaviors のべき乗則が暗黙に仮定する「k(N) > 0 が全 N で成立する」前提に対する修正であり、RL スケーリング則のモデル化に「活性化閾値 N_min」の導入が必要になる可能性を示唆する。一方、Scaling Up RL は 1.5B で成功しているが DAPO 拡張という追加手法を要しており、アルゴリズムの工夫で閾値を下げられるかという問いにもつながる。(Source: [[@2025__arXiv__DeepSeek-R1 - Incentivizing Reasoning Capability in LLMs via Reinforcement Learning]], [[@2025__arXiv__Scaling Behaviors of LLM Reinforcement Learning Post-Training]], [[@2025__arXiv__Scaling Up RL - Unlocking Diverse Reasoning in LLMs via Prolonged Training]]) - **事前学習コスト 10% 超の RL 計算予算が産業規模で初めて実効性を実証された**: [[@2025__arXiv__DeepSeek-V3.2 - Pushing the Frontier of Open Large Language Models]] は事後学習の計算予算を事前学習コストの 10% 超に拡大し、GPT-5 と同等の推論性能を達成した。論文は「計算資源の追加投入に伴い継続的な性能向上を観測」と報告しており、Scaling Behaviors 論文のべき乗則と整合する。ScaleRL のシグモイドフレームワークで解釈すると、DeepSeek-V3.2 の 4 つの GRPO 安定化技術（不偏 KL 推定・オフポリシーシーケンスマスキング・Keep Routing・Keep Sampling Mask）は漸近性能 A を維持したまま実質的な計算効率 B を向上させる設計——大規模 RL を安定に完走させることでスケーリングフロンティアへの到達を可能にする——と位置づけられる。DeepSeek-R1 の$294K・147K GPU 時間と比較すると、V3.2 は「事前学習の 10%」をさらに超えるコストを RL に振り向けた点で、RL 投資の最適配分の実践的な上界を押し広げている。(Source: [[@2025__arXiv__DeepSeek-V3.2 - Pushing the Frontier of Open Large Language Models]], [[@2025__arXiv__Scaling Behaviors of LLM Reinforcement Learning Post-Training]], [[@2025__arXiv__The Art of Scaling Reinforcement Learning Compute for LLMs]]) - **DeepSeek-R1 の訓練コスト($294K)は、RL スケーリングのコスト効率ベンチマークとして複数の比較軸を提供する**: R1-Zero(101K H800 GPU 時間)と R1(41K + 5K SFT データ作成)の合計 147K GPU 時間で、AIME 79.8%・Codeforces 96.3% というフロンティア性能を達成した。MiniMax-M1 の 512 GPU・3 週間・53.4 万ドル(456B MoE)と比較すると、DeepSeek-R1 は 512 GPU・約 12 日間でより大きい 671B MoE をフロンティアに到達させている。RL インフラの効率(4 モジュール分離・VRAM 自動オフロード・MTP 自己投機デコーディング・DualPipe)がこのコスト効率に寄与しており、ScaleRL フレームワークの B(計算効率)の変調がアルゴリズムだけでなくインフラ設計にも依存することを実例で示す。(Source: [[@2025__arXiv__DeepSeek-R1 - Incentivizing Reasoning Capability in LLMs via Reinforcement Learning]], [[@2025__arXiv__MiniMax-M1 - Scaling Test-Time Compute Efficiently with Lightning Attention]], [[@2025__arXiv__The Art of Scaling Reinforcement Learning Compute for LLMs]]) - **事前学習投資とRL投資を結ぶ結合スケーリング則が、チェスという制御可能なテストベッドで初めて定量的に導出された**: [[@2026__arXiv__Understanding Reasoning from Pretraining to Post-Training]] は `R(CRL,N,T) = f(Lpt(N,T)) + g(N,T)(log10 CRL − log10 Cref)` という形の関数を導出し、事前学習の損失・投入トークン数からRL報酬曲線の切片(事前学習の質)と傾き(RL計算量の効率)の両方を予測できることを示した。これは Scaling Behaviors 論文・ScaleRL がそれぞれ独立に扱ってきた「事前学習側のモデル規模 N・データ量 D」と「RL側の計算量 C・漸近性能 A」を単一の予測式に統合する試みであり、上記の未解決の問い(「事前学習投資とRL投資の最適配分の精密な処方箋は導出されていない」)に対する部分的回答となる。ただしチェスという単一の検証可能ドメイン・GRPOという単一アルゴリズムでの実証であり、数学・コード等の他ドメインやPPO等の他アルゴリズムへの一般化はまだ確認されていない。(Source: [[@2026__arXiv__Understanding Reasoning from Pretraining to Post-Training]]) - **RLによるポリシー変化は「正解の増幅」「テールの発見」「誤ったモードの増幅」の3categoryに分類できる**: 同論文は難易度ビン別にRL訓練前後のポリシー変化を分析し、Ground-truth amplification(すでに高確率だった正解をさらに強化)・Tail discovery(事前学習時点では低確率だった正解を発見して確率を引き上げる)・Wrong-mode amplification(誤った手を誤って強化してしまう)の3パターンに整理した。これはRLVR研究(検証可能報酬による強化学習)における「報酬ハッキング」の問い([[検証可能報酬による強化学習]] 未解決の問い参照)に対して、失敗モードを類型化する具体的な分析軸を提供する。(Source: [[@2026__arXiv__Understanding Reasoning from Pretraining to Post-Training]]) ## 未解決の問い - 事前学習のスケーリング則では Kaplan と Chinchilla の間でパラメータ/トークンの最適配分が論争になった。RL 事後学習でも同様のリソース最適配分(モデル規模 vs 訓練ステップ)の精密な処方箋は導出されていない。32B vs 72B の性能交差(図 1)はこの問いの具体的な現れだが、一般的な計算最適スケーリング処方箋(RL 版 Chinchilla 則)はまだない。[[@2026__arXiv__Understanding Reasoning from Pretraining to Post-Training]] がチェスドメインで結合スケーリング則を導出したことで部分的な進展はあったが、数学・コード等の一般ドメインへの一般化・PPO等の他アルゴリズムへの拡張は未検証。(Source: [[@2025__arXiv__Scaling Behaviors of LLM Reinforcement Learning Post-Training]] §3.1, §5, [[@2026__arXiv__Understanding Reasoning from Pretraining to Post-Training]]) - 学習効率の飽和(K_max)が数学ドメイン固有の現象なのか、コード・論理推論・多段推論でも同様に生じるかは未検証。ドメイン外汎化が乏しい(§3.5)という知見はスケーリング則自体がドメイン依存である可能性を示唆する。(Source: 同上 §5 Limitations) - GRPO 以外の RL アルゴリズム(PPO・DPO・REINFORCE++)でも同一のべき乗則が成立するかは未確認。アルゴリズムがサンプル効率を改善すればスケーリングフロンティア自体が移動する可能性がある。(Source: 同上 §5) - MoE アーキテクチャではアクティブパラメータ数と総パラメータ数が乖離するため、N の定義自体が再考を要する。MiniMax-M1(456B 総パラメータ・45.9B アクティベーション)はこの問題の具体例であり、さらにハイブリッドアテンションによる FLOPS の非線形性が加わるため、計算量 C の定義も再検討が必要になる。(Source: 同上 Limitations, [[@2025__arXiv__MiniMax-M1 - Scaling Test-Time Compute Efficiently with Lightning Attention]]) - [[強化ファインチューニング]] の障害管理研究([[@2026__arXiv__Towards Robust LLM Post-Training - Automatic Failure Management for Reinforcement Fine-Tuning]])が示す reward hacking・KL explosion 等の訓練障害がスケーリング則のフィッティングにどう影響するか——障害ランを除外すると R² はさらに上がるのか、障害がスケーリングの「ノイズ」でなく構造的な逸脱なのかは不明。 - ScaleRL のシグモイドフレームワークは事前学習計算量・モデル規模・RL 訓練データを横断する統一スケーリング則を導出していない。Scaling Behaviors の k(N) とシグモイドの A(N) を統合するモデルが導出できれば、事前学習投資と RL 投資の最適配分が可能になるはずだが未着手である。(Source: [[@2025__arXiv__The Art of Scaling Reinforcement Learning Compute for LLMs]] §7) - ScaleRL は検証可能報酬（±1）のみを使用しており、構造化報酬・密報酬・生成的検証器へのシグモイドフレームワークの適用は未検証。報酬設計が A と B にどう影響するかの系統的研究は将来課題として残る。(Source: [[@2025__arXiv__The Art of Scaling Reinforcement Learning Compute for LLMs]] §7) - Kimi K1.5 はコンテキスト長をスケーリング次元として同定したが、スケーリング実験の詳細は「k1.5 よりもはるかに小さい内部モデル」で実施されており、本番規模でのコンテキスト長スケーリング則は未確立。ScaleRL/Scaling Behaviors のべき乗則/シグモイドフレームワークにコンテキスト長 L を明示的な変数として組み込む拡張が次の課題となる。(Source: [[@2025__arXiv__Kimi K1.5 - Scaling Reinforcement Learning with LLMs]]) ## 関連 - ソース: [[@2025__arXiv__DeepSeek-R1 - Incentivizing Reasoning Capability in LLMs via Reinforcement Learning]] / [[@2025__arXiv__The Landscape of Agentic Reinforcement Learning]] / [[@2025__arXiv__Scaling Behaviors of LLM Reinforcement Learning Post-Training]] / [[@2025__arXiv__The Art of Scaling Reinforcement Learning Compute for LLMs]] / [[@2025__arXiv__Scaling Up RL - Unlocking Diverse Reasoning in LLMs via Prolonged Training]] / [[@2025__arXiv__Kimi K1.5 - Scaling Reinforcement Learning with LLMs]] / [[@2025__arXiv__MiniMax-M1 - Scaling Test-Time Compute Efficiently with Lightning Attention]] / [[@2026__arXiv__Understanding Reasoning from Pretraining to Post-Training]] - 概念: [[強化ファインチューニング]] / [[LLM分散学習]] / [[エージェント型強化学習]] / [[テスト時計算スケーリング]] / [[検証可能報酬による強化学習]] - エンティティ: [[GRPO]] / [[VeRL]] / [[Shanghai AI Laboratory]] / [[NVIDIA]] / [[Nemotron-Research-Reasoning-Qwen-1.5B]] / [[ScaleRL]] / [[PipelineRL]] / [[Meta]] / [[Rishabh Agarwal]] / [[Devvrit Khatri]] / [[Periodic Labs]] / [[Kimi K1.5]] / [[Moonshot]] / [[DeepSeek-R1]] / [[DeepSeek-R1-Zero]] / [[DeepSeek-AI]] ## 出典 - [[@2025__arXiv__The Landscape of Agentic Reinforcement Learning]]（§6.2 Scaling up Agentic Training: 計算量・モデル規模・データ量・効率の 4 軸整理） - [[@2025__arXiv__Scaling Behaviors of LLM Reinforcement Learning Post-Training]](§1 Introduction, §3 Empirical Results and Scaling Laws, §5 Discussion, Appendix D Loss Decomposition Model) - [[@2025__arXiv__The Art of Scaling Reinforcement Learning Compute for LLMs]](§2.1 Predictive compute-scaling, §3 Empirical Study, §4 ScaleRL, §5 Scaling Across Axes, §7 Discussion, §A.4 What curve to fit?) - [[@2025__arXiv__Scaling Up RL - Unlocking Diverse Reasoning in LLMs via Prolonged Training]](§1 Introduction, §3 Approach, §4 Experiment Results, §5 Ablation Studies) - [[@2025__arXiv__Kimi K1.5 - Scaling Reinforcement Learning with LLMs]](§1 Introduction, §2.3 Reinforcement Learning, §2.6 RL Infrastructure, §3.3 Long Context Scaling, 図 5–8) - [[@2025__arXiv__DeepSeek-V3.2 - Pushing the Frontier of Open Large Language Models]](§3 Post-Training: 事前学習コスト 10% 超の RL 計算予算、GRPO 安定化 4 技術で大規模 RL を安定完走、§4 継続的な性能向上の観測) - [[@2025__arXiv__DeepSeek-R1 - Incentivizing Reasoning Capability in LLMs via Reinforcement Learning]]（§3 DeepSeek-R1-Zero: ベースモデル規模閾値の実証、§4 DeepSeek-R1: 4 段パイプラインの訓練コスト $294K・147K GPU 時間、Table 11 PPO vs GRPO 比較） - [[@2026__arXiv__Understanding Reasoning from Pretraining to Post-Training]](チェスドメインでの事前学習-RL結合スケーリング則の導出、ポリシー変化の3categoryの分類)