# AgentRL
[[Tsinghua University]] と [[Z.AI]] が開発した、マルチターン・マルチタスクのエージェント型 RL 訓練フレームワーク。完全非同期の生成-訓練パイプライン、コンテナ化された異種環境デプロイ、交差方策サンプリング(cross-policy sampling)、タスクアドバンテージ正規化の 4 要素を統合する。GRPO をベースアルゴリズムとし、VeRL プロジェクトを基盤にフルスクラッチで非同期化。Qwen2.5(3B〜32B)と GLM-4-9B を [[AgentBench]]-FC の 5 タスクで訓練し、GPT-5・Claude-Sonnet-4・DeepSeek-R1 を凌駕する平均成功率 70.4% を達成。[[AutoGLM]] にアルゴリズムとフレームワークが採用されている。OSS 公開: https://github.com/THUDM/AgentRL
(Source: [[@2025__arXiv__AgentRL - Training Language Model Agents with Reinforcement Learning]])