GRPO - yuuk1's Digital Garden

# GRPO Group Relative Policy Optimization(Shao+ 2024、[[@2024__arXiv__DeepSeekMath - Pushing the Limits of Mathematical Reasoning in Open Language Models]])。各プロンプトに対しグループ G 個の応答をサンプリングし、グループ内の報酬を正規化してアドバンテージを推定する RL アルゴリズム。価値関数を持たないアクターのみの設計でメモリコストが低く、安定した勾配信号を与える。数学推論向け 7B モデルの強化学習で初めて提案され、後に [[DeepSeek-R1]] での 671B MoE 大規模適用を経て事後学習の標準アルゴリズムとして定着した。 [[@2025__arXiv__Scaling Behaviors of LLM Reinforcement Learning Post-Training]] の全実験(63 モデル超)で使用された。[[@2026__arXiv__Cast-R1 - Learning Tool-Augmented Sequential Decision Policies for Time Series Forecasting]] でもマルチターン予測エージェントのポリシー学習に用いられ、[[強化ファインチューニング]] の中心アルゴリズムの一つ。ロールアウトグループサイズ G のアブレーション(G ∈ {4, 8, 16, 32}、§B.2)では、データ観点では G = 32 が最良のサンプル効率を達成するが、計算観点では最適な G は予算に依存する——低予算では小さい G、十分な計算量があれば大きい G が有利。 [[@2025__arXiv__Scaling Up RL - Unlocking Diverse Reasoning in LLMs via Prolonged Training]] では、GRPO に DAPO の分離クリッピング(ε_low=0.2、ε_high=0.4)と動的サンプリングを組み込み、小さな KL ペナルティ(β=1e-4)と参照方策の周期的リセットを加えることで、1.5B パラメータモデルの長期 RL 訓練を安定化させた。分離クリッピングでは ε_high の拡大が低確率トークンのアップリフトを促しエントロピー崩壊を緩和し、AIME2024 で最大 +5% の改善を確認している。 [[@2025__arXiv__DeepSeek-R1 - Incentivizing Reasoning Capability in LLMs via Reinforcement Learning]] では、GRPO が 671B MoE モデル(DeepSeek-V3-Base)に大規模適用され、PPO との体系的比較が行われた。PPO は GAE の λ=0.95(既定値)で GRPO に大幅に劣るが、λ=1.0 への調整で同等に接近する。ただし価値モデルの追加メモリ・計算コストと、長い CoT での最終報酬予測の困難さから、GRPO がより実用的な代替策と結論づけられた。さらに KL ダイバージェンスをトークン単位の密報酬でなく損失項に直接加える設計により、PPO の暗黙的な応答長抑制を回避し、参照方策を 400 ステップごとに更新して長期訓練の安定性を確保した。クリップ比率 ε=10(通常より高い値)の採用も特徴的であり、低すぎると重要トークンの勾配切断、高すぎると訓練不安定化のトレードオフが報告されている。 [[@2025__Together AI__DeepSWE - Training a Fully Open-sourced State-of-the-Art Coding Agent by Scaling RL]] では GRPO を拡張した **GRPO++** を提案。DAPO の Clip High、Dr.GRPO の長さ正規化と報酬標準偏差除去、Leave-One-Out 分散削減に加え、新規の **Compact Filtering**(コンテキスト長枯渇・生成タイムアウト・最大ステップ到達の軌跡を損失マスク)とエントロピー損失除去を統合する。エージェント型 RL 固有の不完全軌跡問題を解決し、Qwen3-32B の SFT なし RL 訓練で [[SWE-Bench-Verified]] SOTA(Pass@1 42.2%、ハイブリッド Best@16 59.0%)を達成した。