# ScaleRL
Meta/UT Austin/UC Berkeley/Harvard/Periodic Labs による、LLM の RL 後訓練のための予測的にスケーラブルなレシピ。既存手法の系統的アブレーションから最良の設計選択を統合したもので、新規アルゴリズムの発明でなく組み合わせ最適化である点が特徴。
## 構成要素
1. **非同期 RL**: [[PipelineRL]]-8(オフポリシーネス k=8)
2. **損失関数**: CISPO(切り詰め重要度サンプリング + REINFORCE)
3. **損失集約**: プロンプト単位平均
4. **アドバンテージ正規化**: バッチ単位
5. **精度修正**: LM ヘッドの FP32 計算
6. **データ管理**: ゼロ分散フィルタリング + No-Positive-Resampling
7. **生成長制御**: 強制中断(思考終了フレーズ付加)
## 性能
- 8B 密モデルで漸近正答率 A = 0.61(GRPO 0.45、DAPO 0.53 に対して SOTA)
- Scout 17B×16 MoE で A = 0.71
- 100,000 GPU 時間のランで予測曲線と実測が整合
- AIME-24 での一貫したスケーリング傾向
## 関連
- [[@2025__arXiv__The Art of Scaling Reinforcement Learning Compute for LLMs]]
- [[PipelineRL]]、[[強化学習スケーリング]]、[[強化ファインチューニング]]