# AgentRL: Scaling Agentic Reinforcement Learning with a Multi-Turn, Multi-Task Framework
> [!abstract]
> 大規模言語モデル(LLM)をマルチターン・マルチタスクのエージェント環境で強化学習(RL)により訓練するフレームワーク AgentRL を提案する。インフラ面では完全非同期の生成・訓練パイプライン、統一ファンクションコール API、コンテナ化環境デプロイ、集中コントローラを備える。アルゴリズム面では、マルチターンの状態空間が大きい設定で探索を促す交差方策サンプリング(cross-policy sampling)と、マルチタスク訓練を安定させるタスクアドバンテージ正規化(task advantage normalization)を導入する。5 つのエージェントタスクで Qwen2.5 系列・GLM-4 を訓練し、GPT-5・Claude-Sonnet-4・DeepSeek-R1 などの最先端モデルを上回る平均成功率 70.4% を達成した。
## 論文情報
| 項目 | 内容 |
|---|---|
| タイトル | AgentRL: Scaling Agentic Reinforcement Learning with a Multi-Turn, Multi-Task Framework |
| 著者 | [[Hanchen Zhang]]†*, Xiao Liu*†, Bowen Lv†, Xueqiao Sun, Bohao Jing†, Iat Long Iong†, Zhenyu Hou†, Zehan Qi†, Hanyu Lai†, Yifan Xu†, Rui Lu†, Hongning Wang, Jie Tang, Yuxiao Dong |
| 所属 | [[Tsinghua University]], [[Z.AI]] |
| 公開日 | 2025-10-05 |
| arXiv | 2510.04206 (cs.AI) |
| コード | https://github.com/THUDM/AgentRL |
(*: equal contribution, †: [[Z.AI]] でのインターン中の研究)
## 概要
LLM をエージェントとして訓練する RL は、シングルターン・シングルタスクの設定では成功を収めてきた(DeepSeek-R1、GRPO など)。しかしマルチターン対話を伴うエージェント的タスクへの拡張には、インフラ・アルゴリズムの両面で課題がある。AgentRL はこの課題を解決するフレームワークであり、(1) 非同期パイプライン、(2) コンテナ化環境デプロイ、(3) 交差方策サンプリング、(4) タスクアドバンテージ正規化の 4 つの技術要素で構成される。
## 問題設定
エージェント的 RL をマルコフ決定過程(MDP)として定式化する。状態 $s_t = (s_t^{env}, s_t^{ctx})$ は環境状態とトークン化された文脈の複合であり、行動 $a_t$ は複数トークンの列である。報酬は環境からの検証可能なシグナル(成功 1、失敗 0、異常終了 −0.2)を用いる。
マルチターン RL の課題は 3 層に分かれる。
1. **インフラ(マルチターン)**: 同期的ロールアウトでは長い軌道が GPU アイドルを生む。対話的環境の大規模並列管理も必要
2. **アルゴリズム(マルチターン)**: 状態空間の拡大で探索が訓練中に衰退する
3. **インフラ・アルゴリズム(マルチタスク)**: 異種環境の統合・タスク間干渉の制御
## 提案手法
### 非同期訓練パイプライン
ロールアウトと訓練を独立リソースグループで非同期実行し、コルーチンスケジューリングで GPU スロットを埋める。動的バッチサイズを許容し、データキューの最大サイズを制限することでオフポリシーの偏りを抑制する。14B パラメータモデルの Webshop タスクで、同期パイプライン比 1.7〜1.9 倍のスループットを達成した。
### スケーラブル環境インフラ
3 つのコンポーネントで構成される。
- **ファンクションコールベースの API インターフェース**: OpenAI Function Call Format で統一し、複雑な独自アクション形式を排除
- **コンテナ化デプロイ**: タスクごとに隔離されたコンテナ、障害分離とリソース配分の効率化
- **集中コントローラ**: 数千の並列訓練エピソードのライフサイクルを管理。ノンブロッキング・ディスパッチ、タイムアウト駆動の障害検知・自己修復
### 交差方策サンプリング(cross-policy sampling)
マルチターン設定で探索の衰退とモデル崩壊を防ぐため、単一軌道の各ステップで複数モデルからランダムに行動をサンプルする。実装上は同一アーキテクチャの古いバージョンを用い、一部のロールアウトエンジンを「陳腐化エンジン」としてパラメータ更新を複数ステップごとに遅延させる。
直感的には、言語状態 $s^{ctx}$ が有効な言語空間 $L_{valid}$ に留まったまま、ゴール到達可能な言語前像 $L_G$ のカバレッジを拡大する。推論時の pass@k 評価で、単独モデルや混合モデルを超える性能を示した。
### タスクアドバンテージ正規化(task advantage normalization)
各トークンのアドバンテージ推定値をタスクバッチ内で零平均・単位分散に正規化する:
$\tilde{A}_{i,s,g,t,k} = \frac{\hat{A}_{i,s,g,t,k} - \mu_i}{\sigma_i}$
タスク間の難易度・系列長・サンプリング効率の異質性による訓練不安定を緩和する。
## 新規性
1. **マルチターン・マルチタスクの両立**: 既存 RL フレームワーク(VeRL、OpenRLHF、AReaL 等)はいずれも両立を達成しておらず、AgentRL が初
2. **交差方策サンプリング**: マルチターンの探索衰退問題に対し、複数方策の行動を軌道レベルで混合する新しい戦略
3. **タスクアドバンテージ正規化**: マルチタスク RL 特有のタスク間干渉をトークンレベルで正規化する手法
4. **完全非同期パイプライン**: ロールアウトと訓練の完全分離、GPU アイドルバブルの大幅削減
## 実験設定
- **タスク**: AgentBench-FC の 5 タスク — ALFWorld(テキストアドベンチャー)、DB(データベース SQL)、KG(知識グラフ)、OS(オペレーティングシステム CLI)、Webshop(ウェブ買い物)
- **モデル**: Qwen2.5-Instruct 系列(3B/7B/14B/32B)、GLM-4-9B-0414
- **ベースライン**: Claude-Sonnet-4、GPT-5、DeepSeek-R1、Qwen2.5-72B、AgentLM、Hephaestus
- **訓練**: GRPO ベース、温度 0.8、グループサイズ 8、H800 GPU(最小 16 GPU)、SGLang 推論エンジン + FSDP
- **評価**: 温度 0.8、4 回平均
## 実験結果
### 主結果(成功率)
| モデル | ALFWorld | DB | KG | OS | Webshop | 平均 |
|---|---|---|---|---|---|---|
| Claude-Sonnet-4 Thinking | 69.0 | 68.4 | 64.4 | 51.0 | 38.3 | 58.2 |
| GPT-5 | 65.4 | 63.2 | 64.1 | 34.5 | 33.7 | 52.2 |
| DeepSeek-R1 | 51.4 | 60.4 | 50.2 | 53.6 | 31.0 | 49.3 |
| AgentRL (Qwen2.5-32B) | **94.5** | **70.4** | **77.0** | **51.7** | **58.6** | **70.4** |
| AgentRL (Qwen2.5-14B) | 91.5 | 72.2 | 72.8 | 43.6 | 58.5 | 67.7 |
| AgentRL (Qwen2.5-3B) | 92.4 | 60.0 | 55.0 | 40.5 | 52.1 | 60.0 |
- AgentRL (32B) は平均成功率 70.4% で、全 API モデル・オープンモデルを上回る SOTA を達成
- 3B モデルでも GPT-5・DeepSeek-R1 を上回る 60.0%
### マルチタスク対シングルタスク
14B モデルでの比較で、マルチタスク訓練(1 モデル)は 5 つのシングルタスク専門モデルの最良結果(67.8%)とほぼ同等の 67.7% を達成。シングルタスクモデルは訓練タスク以外で大幅に劣化する。
### 汎化性能(BFCL-v3)
訓練に含まない BFCL-v3 ベンチマークで、マルチターンタスクに +3.0%、全体で +1.5% の改善を示した。
### アブレーション
| 手法 | 平均成功率 |
|---|---|
| AgentRL-14B(フル) | 65.0 |
| − 交差方策サンプリング | 60.7 (−4.3) |
| − タスクアドバンテージ正規化 | 59.4 (−5.6) |
タスクアドバンテージ正規化の寄与が特に大きく、除去すると ALFWorld で訓練曲線に顕著な変動が現れる。
## 考察
- **スケーリング則**: モデルサイズの増加に伴い一貫した性能向上が観察され、AgentRL フレームワークの拡張性を示す
- **エラー分析**: RL 訓練により「タスク制限到達」(タイムアウト)率が大幅に低下(ALFWorld: 68%→7.4%)。RL はツールの正しい使い方、効率的な探索戦略、行動の適切な順序付けを教える
- **交差方策サンプリングの事例**: KG タスクで GLM-4 は論理推論は正確だがツール呼び出しプロトコルに従わず、Llama はツール理解が不正確。交差サンプリングで GLM-4 の論理と Llama のツール指向を動的に組み合わせ、単独では解けない問題を解決
## 強み
- マルチターンとマルチタスクの両方を統合的に扱う初の RL フレームワークであり、インフラ・アルゴリズムの両面を包括的に設計
- 3B という小規模モデルでも GPT-5 を超える性能を達成し、RL 訓練の効果の大きさを実証
- マルチタスク訓練がシングルタスク専門モデルの性能に匹敵する「汎用エージェント」の可能性を示した
- 完全非同期パイプラインにより訓練スループットを 1.7〜1.9 倍に改善
- AutoGLM への技術移転など実応用への展開実績がある
## 弱点・課題
- 交差方策サンプリングは分布シフトを導入し、訓練ダイナミクスに軽微な一時的不安定を引き起こしうる。適応的な方策重み付けなどの改良が今後の課題
- 評価環境が AgentBench-FC の 5 タスクに限定されており、より複雑で動的な実世界シナリオでの検証が不足
- SFT によるウォームアップなしで Qwen 系列に直接 RL を適用しているが、GLM-4 はコールドスタート用の SFT が必要であり、モデル依存性がある
- 報酬設計が二値(成功/失敗)+ 異常終了ペナルティのみであり、中間的なフィードバックの活用は未検討
- OS タスクの成功率は他タスクに比べて低く(32B で 51.7%)、行動空間が極めて大きいタスクではまだ改善の余地がある