# PipelineRL
Piche ほか(2025)が提案した LLM の RL 訓練のためのストリーミング型非同期パイプラインセットアップ。Magistral(Rastogi ほか 2025)が採用し、ScaleRL の基盤コンポーネントとなる。
## 仕組み
従来の PPO-off-policy ではバッチ単位で生成と訓練が交互に実行されるのに対し、PipelineRL では生成器がストリーミング方式で連続的に推論トレースを生成する。訓練器はポリシー更新を完了するとただちに新しいパラメータを生成器にプッシュし、生成器は更新済みの重みで続行する(ただし古いポリシーの KV キャッシュが残る)。この密なフィードバックループによりオンポリシー訓練に近い状態を維持し、生成器と訓練器の分布ミスマッチを低減する。
## ScaleRL での役割
ScaleRL は PipelineRL-8(最大オフポリシーネス k=8)を採用する。PPO-off-policy 比で漸近性能 A が僅かに向上しつつ、計算効率 B を大幅に改善する(図 4a)。非同期 RL セットアップは他の設計選択と概ね独立に動作し、スケーリング特性に最も影響が大きい設計軸の一つとされる。
## 関連
- [[@2025__arXiv__The Art of Scaling Reinforcement Learning Compute for LLMs]](§3.1)
- [[ScaleRL]]、[[強化学習スケーリング]]