# Rishabh Agarwal Periodic Labs の研究者。RL スケーリング論文の責任著者格(†: Meta での研究)。深層強化学習の統計的評価手法(NeurIPS 2021 の "Deep RL at the Edge of the Statistical Precipice")で知られ、プロセス報酬検証器のスケーリング(Setlur ほか 2024)も主導する。ScaleRL 論文では 400,000 GPU 時間超のアブレーションを指揮し、RL 計算スケーリングの予測的フレームワークを構築した。 ## 関連 - [[@2025__arXiv__The Art of Scaling Reinforcement Learning Compute for LLMs]](責任著者格) - [[ScaleRL]]、[[PipelineRL]]