Rishabh Agarwal - yuuk1's Digital Garden

# Rishabh Agarwal Periodic Labs の研究者。RL スケーリング論文の責任著者格（†: Meta での研究）。深層強化学習の統計的評価手法（NeurIPS 2021 の "Deep RL at the Edge of the Statistical Precipice"）で知られ、プロセス報酬検証器のスケーリング（Setlur ほか 2024）も主導する。ScaleRL 論文では 400,000 GPU 時間超のアブレーションを指揮し、RL 計算スケーリングの予測的フレームワークを構築した。 ## 関連 - [[@2025__arXiv__The Art of Scaling Reinforcement Learning Compute for LLMs]]（責任著者格） - [[ScaleRL]]、[[PipelineRL]]