PipelineRL - yuuk1's Digital Garden

# PipelineRL Piche ほか（2025）が提案した LLM の RL 訓練のためのストリーミング型非同期パイプラインセットアップ。Magistral（Rastogi ほか 2025）が採用し、ScaleRL の基盤コンポーネントとなる。 ## 仕組み従来の PPO-off-policy ではバッチ単位で生成と訓練が交互に実行されるのに対し、PipelineRL では生成器がストリーミング方式で連続的に推論トレースを生成する。訓練器はポリシー更新を完了するとただちに新しいパラメータを生成器にプッシュし、生成器は更新済みの重みで続行する（ただし古いポリシーの KV キャッシュが残る）。この密なフィードバックループによりオンポリシー訓練に近い状態を維持し、生成器と訓練器の分布ミスマッチを低減する。 ## ScaleRL での役割 ScaleRL は PipelineRL-8（最大オフポリシーネス k=8）を採用する。PPO-off-policy 比で漸近性能 A が僅かに向上しつつ、計算効率 B を大幅に改善する（図 4a）。非同期 RL セットアップは他の設計選択と概ね独立に動作し、スケーリング特性に最も影響が大きい設計軸の一つとされる。 ## 関連 - [[@2025__arXiv__The Art of Scaling Reinforcement Learning Compute for LLMs]]（§3.1） - [[ScaleRL]]、[[強化学習スケーリング]]