rLLM - yuuk1's Digital Garden

# rLLM [[Agentica]] が開発する言語エージェントの事後学習(post-training)フレームワーク。軌跡レベル(trajectory-level)およびステップレベル(step-level)のアルゴリズム実装を処理し、[[DeepSWE]] の全訓練に使用された。GRPO++ の実装を含み、[[Kubernetes]] 統合によるスケーラブルなコンテナオーケストレーション(RL イテレーションあたり 512 コンテナ同時実行)を提供する。 - GitHub: https://github.com/agentica-project/rllm (Source: [[@2025__Together AI__DeepSWE - Training a Fully Open-sourced State-of-the-Art Coding Agent by Scaling RL]])