@2025__arXiv__Scaling Behaviors of LLM Reinforcement Learning Post-Training

# Scaling Behaviors of LLM Reinforcement Learning Post-Training > [\!abstract] > 大規模言語モデル（LLM）の事前学習におけるスケーリング則は広く研究されてきたが、強化学習（RL）ポストトレーニングでのスケーリング挙動はほとんど未解明である。本論文は、数学的推論に焦点を当て、LLM の RL ポストトレーニングのスケーリング挙動を調査する。Qwen2.5 シリーズ（0.5B〜72B）を用いた実験を通じ、モデル規模・データ・計算量の相互作用を特性化する。分析から 4 つの主要な知見を得た。❶ 大規模モデルは計算効率・データ効率において一貫して優位である。❷ モデル性能と訓練資源の関係は、ベースモデル・指示チューニング済みモデルの双方で予測可能なべき乗則に従う。❸ RL の学習効率はモデル規模増大に伴い潜在的な飽和傾向を示す。❹ データ制約環境では、サンプルの一意性よりも総訓練データ量が性能を主に支配する。これらの結果は、RL ポストトレーニングを通じた推論能力のスケーリングに実用的な指針を与える。 ## 論文情報 | 項目 | 内容 | |---|---| | タイトル | Scaling Behaviors of LLM Reinforcement Learning Post-Training: An Empirical Study in Mathematical Reasoning | | 著者 | [[Zelin Tan]]（USTC/Shanghai AI Lab）、Hejia Geng（Oxford）、Xiaohang Yu（Imperial College London）ほか 14 名 | | 責任著者 | [[Chen Zhang (Shanghai AI Lab)|Chen Zhang]]、[[Zhenfei Yin]] | | 所属 | [[University of Science and Technology of China]]、[[Shanghai AI Laboratory]]、[[University of Oxford]]、Imperial College London、University of Georgia、CUHK、CAS、Dalian University of Technology、[[National University of Singapore]]、[[Wuhan University]] | | 会議 | ACL 2026 Main Conference（採択済み） | | arXiv | 2509.25300v4（初版 2025-09-29、最新版 2026-04-17） | | 分野 | cs.LG、cs.AI | ## 概要 LLM の RL ポストトレーニングにおけるスケーリング挙動を体系的に実証した初の研究である。Qwen2.5 ファミリー（0.5B〜72B、7 スケール）を対象に 63 モデルを RL で微調整し、計算制約・データ制約・データ再利用の 3 つの資源体制にわたるスケーリング関係を定式化した。さらに Llama 3 ファミリーでの検証によりアーキテクチャ非依存の一般性を確認している。 ## 問題設定 LLM の事前学習スケーリング則（Kaplan+ 2020、Hoffmann+ 2022）は確立されているが、RL ポストトレーニング（特に数学的推論向け）では、以下の 3 つの資源体制における最適配分が未解明であった。 1. **計算制約シナリオ**: 固定 FLOP 予算下でテスト損失を最小化するモデルサイズ N の決定 2. **データ制約シナリオ**: 固定ユニークサンプル数下で最小テスト損失を達成するモデルサイズの決定 3. **データ再利用シナリオ**: 固定総データ量下での再利用係数 τ の最適化テスト損失は L = 1 − (R/R_max) と定義し、RL の報酬最大化と等価な最小化目標として設定する。 ## 提案手法テスト損失 L、モデルサイズ N、資源予算 X（計算量 C またはデータ量 D）の関係を以下のべき乗則で定式化する。 $\log L(N, X) = -k(N) \cdot \log X + E(N)$ ここで k(N) は**学習効率**を表し、以下の飽和関数でモデル化される。 $k(N) = \frac{K_{\max}}{1 + \frac{N_0}{N}}$ K_max は学習効率の理論的上限、N_0 は特性スケールである。この定式化により、大規模モデルほど学習効率が高いが限界利得は漸減するという飽和傾向を捕捉する。訓練には GRPO（Group Relative Policy Optimization、Shao+ 2024）を使用する。GRPO は各質問に対しグループ内の報酬正規化によりアドバンテージを推定し、低メモリコストで安定した勾配シグナルを提供する。訓練データは Reasoning360 プロジェクトの guru-RL-92k データセットの数学サブセットで、難易度の昇順にソートしカリキュラム学習を実現している。 **Figure 6: 図** ![[_attachments/arxiv-2509.25300/fig6-figure.png]] (Figure 6. Data reuse schema. Each row represents a training run を示す。) **Figure 1: モデル構成** ![[_attachments/arxiv-2509.25300/fig1-model.png]] (Figure 1. In contrast to the immediate dominance of larger models in smaller parameter regimes, the 32B model outperforms the 72B に関するモデル構成を示す。) **Figure 2: モデル構成** ![[_attachments/arxiv-2509.25300/fig2-model.png]] (Figure 2. Inter-model Prediction in data scenario. The scaling law parameters are fitted on smaller models (0.5B–32B) to predict t に関するモデル構成を示す。) **Figure 4: モデル構成** ![[_attachments/arxiv-2509.25300/fig4-model.png]] (Figure 4. Fitted learning efficiency coefficients for Base and Instruct models. Both kC(N) (a) and kD(N) (b) exhibit identical tre に関するモデル構成を示す。) **Figure 5: アーキテクチャ** ![[_attachments/arxiv-2509.25300/fig5-architecture.png]] (Figure 5. Cross-architecture validation on Llama 3. The same scaling law (Eq. 6, 8) fitted on Llama 3 Instruct models (1B–70B) ach に関するアーキテクチャを示す。) ## 新規性 1. **RL ポストトレーニング固有のスケーリング則の初の体系的定式化**: 事前学習のスケーリング則を RL ポストトレーニングに拡張し、計算・データ双方の次元で統一的なべき乗則を提案した 2. **学習効率の飽和現象の発見と定量化**: k(N) の飽和関数により、32B 以降で限界利得が顕著に減少することを示した（R² > 0.99） 3. **データ再利用の有効性の実証**: 再利用係数 τ ≤ 25 ではデータの一意性より総量が支配的であることを定量的に示した 4. **アーキテクチャ横断の検証**: Qwen2.5 だけでなく Llama 3（1B〜70B）でも同一のスケーリング関数形が成立することを確認した ## 実験設定 - **モデル**: Qwen2.5（0.5B、1.5B、3B、7B、14B、32B、72B）、Llama 3（1B、3B、8B、70B） - **フレームワーク**: VeRL（大規模 RL プラットフォーム） - **訓練データ**: guru-RL-92k 数学サブセット（5 万問超）、難易度昇順カリキュラム - **評価データ**: ドメイン内（保留 500 問、AIME2024、AMC2023、GSM8K、MATH500）＋ドメイン外（HumanEval、Zebra Puzzle、SuperGPQA） - **報酬**: 数学問題の正誤に基づく二値報酬（正解 1、不正解 0） - **ハイパーパラメータ**: 学習率 1e-6、バッチサイズ 512、KL 係数 0.001、ロールアウト温度 1.0（訓練）/0.7（評価） - **検証プロトコル**: モデル間外挿（0.5B〜32B で適合し 72B を予測）とモデル内外挿（初期ステップから全体を予測）の 2 方式。各構成 3 回反復 ## 実験結果 ### 計算最適スケーリング - 固定 FLOP 予算下で大規模モデルが一貫して低いテスト損失を達成する - 計算スケーリング則 log L(N,C) = −k_C(N)·log C + E_C(N) がベース・指示チューニング済み双方で R² > 0.99 の適合度 - モデル間外挿で 72B の学習効率を正確に予測し、モデル内外挿でも残りの訓練軌跡を初期ステップから推定可能 - 32B 超で k_C(N) の増加率が顕著に鈍化し、飽和傾向を確認 ### データ最適スケーリング - 固定サンプル数下でも大規模モデルが優れたサンプル効率を示す - データスケーリング則 log L(N,D) = −k_D(N)·log D + E_D(N) が同様に R² > 0.99 で適合 - k_D(N) も k_C(N) と同一の飽和傾向を示し、計算・データ双方で統一的な関数形を裏付ける ### アーキテクチャ横断検証 - Llama 3（1B〜70B）で同一の実験プロトコルを適用し、計算・データ双方のスケーリング則が R² > 0.99 で適合 - Llama は同等サイズの Qwen より絶対性能が低い（例: Llama-70B で保留精度約 50% vs Qwen-72B で約 59%）が、スケーリング関係の関数形は同一 - RL ポストトレーニングのスケーリング動態はアーキテクチャ固有ではなく、最適化プロセス自体に支配されることを示唆 ### データ再利用 - 総データ量 D_total を固定し再利用係数 τ（1〜100）を変動させた実験で、τ ≤ 25 では最終テスト損失が再利用係数にほぼ不感 - τ = 100 では過学習の兆候が明確に出現 - 性能は最適化ステップの総数（D_total）に主に支配され、サンプルの一意性は従属的 ### ドメイン転移 - ドメイン内（GSM8K、MATH500、AMC2023、AIME2024）: 訓練セット外の未見数学タスクで一貫した改善 - ドメイン外（HumanEval、SuperGPQA、Zebra Puzzle）: コード生成・STEM ではわずかな改善、論理推論（Zebra Puzzle）では大規模モデルで性能劣化。RL ファインチューニングは高度に専門化される傾向 ### パラメータ適合結果 - Qwen2.5 で K_max ≈ 0.13〜0.16、N_0 ≈ 11〜28B（構成により変動） - Llama 3 で K_max ≈ 0.07〜0.09、N_0 ≈ 8〜13B - すべての構成で R² > 0.99 ## 考察 ### 評価環境への依存 - テスト損失はデータセット構成・タスク難易度に強く依存し（例: GSM8K と AIME で収束率が異なる）、適合係数の普遍的解釈は困難である。Hilton+ (2023) が提案した「固有性能（intrinsic performance）」に相当する環境非依存の正規化は大規模 LLM では見出されていない ### モデル規模への依存 - k(N) の飽和関数は、極端な規模では効率利得の限界収穫逓減を含意する。絶対性能は向上し続けるが、効率の限界利得は減少する ### RL アルゴリズムへの依存 - 本分析は GRPO に基づく。比較研究（Cui+ 2025）では訓練曲線の差異は軽微と報告されるが、より高度なアルゴリズムがスケーリングフロンティアを変形しうるかは未解明 ### エージェント型 LLM の将来 - 外部ツール利用・長期記憶・マルチエージェント協調がスケーリング挙動を大きく改善する可能性がある。決定論的計算をツールにオフロードし高水準の意思決定に学習を集中させることで、同一計算・データ予算での性能フロンティアを上方にシフトさせうる ## 強み - **体系性**: 3 つの資源体制（計算・データ・データ再利用）を統一的な枠組みで分析し、63 モデル・3 回反復の大規模実験に基づく - **予測力**: 提案スケーリング則は R² > 0.99 の適合度を達成し、モデル間・モデル内双方の外挿で高い予測精度を示す - **実用性**: データ再利用の有効範囲（τ ≤ 25）、モデル規模による効率飽和の閾値（32B 付近）など、資源配分に直接役立つ定量的指針を提供する - **一般性**: Qwen2.5 と Llama 3 の 2 アーキテクチャで関数形の一貫性を確認 ## 弱点・課題 - **ドメインの限定**: 数学的推論のみを対象としており、コード生成・論理推論・マルチドメイン RL への拡張は未検証 - **モデル規模の上限**: Qwen2.5 の 72B が上限であり、100B 超での飽和傾向の検証は不可能であった - **密モデル限定**: Mixture-of-Experts（MoE）アーキテクチャへの一般化は未探索（Qwen3-235B 等の MoE は比較のみ） - **RL アルゴリズムの単一性**: GRPO のみに基づき、PPO 等の代替手法でのスケーリング挙動は未調査 - **評価指標の環境依存**: テスト損失の定義が報酬関数・データセットに依存し、環境非依存の正規化が未確立