# VeRL
LLM 向けの大規模強化学習プラットフォーム(Sheng+ 2024、arXiv:2409.19256)。HybridFlow として EuroSys 2025 で発表された。[[@2025__arXiv__Scaling Behaviors of LLM Reinforcement Learning Post-Training]] では Qwen2.5(0.5B〜72B)と Llama 3(1B〜70B)の全実験に使用され、一貫性と再現性を担保した。[[@2025__arXiv__Scaling Up RL - Unlocking Diverse Reasoning in LLMs via Prolonged Training]] では [[NVIDIA]] の長期 RL 訓練(GRPO + DAPO 拡張)の基盤として使用されている。GRPO アルゴリズムの大規模並列実行を効率的に支援する。