ScaleRL - yuuk1's Digital Garden

# ScaleRL Meta/UT Austin/UC Berkeley/Harvard/Periodic Labs による、LLM の RL 後訓練のための予測的にスケーラブルなレシピ。既存手法の系統的アブレーションから最良の設計選択を統合したもので、新規アルゴリズムの発明でなく組み合わせ最適化である点が特徴。 ## 構成要素 1. **非同期 RL**: [[PipelineRL]]-8（オフポリシーネス k=8） 2. **損失関数**: CISPO（切り詰め重要度サンプリング + REINFORCE） 3. **損失集約**: プロンプト単位平均 4. **アドバンテージ正規化**: バッチ単位 5. **精度修正**: LM ヘッドの FP32 計算 6. **データ管理**: ゼロ分散フィルタリング + No-Positive-Resampling 7. **生成長制御**: 強制中断（思考終了フレーズ付加） ## 性能 - 8B 密モデルで漸近正答率 A = 0.61（GRPO 0.45、DAPO 0.53 に対して SOTA） - Scout 17B×16 MoE で A = 0.71 - 100,000 GPU 時間のランで予測曲線と実測が整合 - AIME-24 での一貫したスケーリング傾向 ## 関連 - [[@2025__arXiv__The Art of Scaling Reinforcement Learning Compute for LLMs]] - [[PipelineRL]]、[[強化学習スケーリング]]、[[強化ファインチューニング]]