# AutoForge: Environment Synthesis for Agentic RL
> [!abstract]
> シミュレーション環境での強化学習(RL)は、言語ベースのエージェントを強化するうえで費用対効果が高くスケーラブルな手段である。しかし従来手法は半自動の環境合成や難易度不足のタスクに限定され、幅と深さの双方で不十分であった。加えて、環境に統合された模擬ユーザーの不安定性や環境間の異質性がエージェント RL にさらなる課題を生む。本研究では (1) ツール記述文書から高難度かつ検証容易なタスクを伴う模擬環境を自動的にスケーラブルに合成する統一パイプラインと、(2) ユーザー不安定性を効果的に緩和しつつ環境レベルでアドバンテージを推定する RL アルゴリズム ERPO を提案する。τ-bench、τ²-Bench、VitaBench での包括的評価により本手法の有効性が検証され、詳細分析はドメイン外汎化の強さを裏づける。
## 論文情報
- **著者**: [[Shihao Cai]]・[[Runnan Fang]](equal contribution)、Jialong Wu、Baixuan Li、[[Xinyu Wang]]†、Yong Jiang、Liangcai Su、Liwen Zhang、Wenbiao Yin、Zhen Zhang、[[Fuli Feng]]、Pengjun Xie、[[Xiaobin Wang]]†(† corresponding)
- **所属**: [[Tongyi Lab]]、[[Alibaba Group]]
- **会議/ジャーナル**: arXiv:2512.22857(プレプリント、2025-12-28)
- **ページ数**: 12
## 概要
言語ベースのエージェントはツール利用とマルチターン対話で複雑なタスクを解決し得るが、実環境でのRL訓練はコストが高くスケーラビリティに乏しい。模擬環境を使った RL は有力な代替手段だが、(1) 従来は半自動合成やタスク難易度不足、(2) LLM ベース模擬ユーザーの不安定性(幻覚・情報漏洩)、(3) 複数環境を単一環境視点で扱う非効率、の 3 つの課題があった。AutoForge はツール記述文書からの完全自動環境合成パイプラインと、環境レベルの相対方策最適化アルゴリズム ERPO を統合するフレームワークである。
## 問題設定
- **入力**: ツールの記述文書(名前・説明・パラメータ)
- **出力**: 模擬環境(状態 + 操作関数集合)と、その環境に紐づく高難度タスク群
- **目的**: エージェントが模擬ユーザーと環境に繰り返し相互作用しタスクを解決する方策を RL で最適化すること
- **評価**: 環境状態の正解比較による二値報酬(ゴールドステート一致 = 1、不一致 = 0)
## 提案手法
AutoForge は 2 つの柱からなる。
### 1. 検証可能な対話環境合成パイプライン
3 段階の自動合成手順。
**(a) 環境合成(§3.1)**: ツール記述文書から LLM で状態構造(属性名の集合)を生成し、データベースに記録する。状態構造と記述文書から対応する Python 関数集合を LLM に生成させる。実行コストが極めて低く、高並行性と安定性を確保する。
**(b) ツール系列生成(§3.2)**: ツール間の入出力依存を有向グラフとして構築し、ランダムウォークで数千のツール系列をサンプリングする。系列の統合(冗長ツール除去)、推論ノードの挿入(出力から高次情報を導出するノード)、推論エッジの挿入(親ノード出力を推論して子ノード入力を生成する有向辺)により、複雑な有向非巡回グラフ(DAG)を構築する。
**(c) タスク生成(§3.3)**: 状態構造をインスタンス化し、DAG に沿ってツール引数を埋め実行してゴールドステートを取得する。初期意図を初期・ゴールド両状態で洗練し、最小限の情報のみ含む自然言語タスクに仕上げる。
### 2. ERPO(Environment-level Relative Policy Optimization)(§3.4)
GRPO を 4 つの方向でエージェント RL 向けに拡張する。
**(a) ユーザー中心のロールアウト**: 模擬ユーザーが最初のリクエストを生成し、エージェントはツール呼出しまたはユーザーへの情報要求を自律的に選択する。ユーザーが全要件の達成を判定するまで継続する。
**(b) インターリーブドシンキング**: マルチターン対話で前ターンの推論内容(タスク分析・計画)を保持し、後続の意思決定精度を向上させる。Qwen3 のデフォルト(新ユーザークエリ受信時に推論内容を破棄)を変更。
**(c) 誤りユーザー行動のマスキング(MEU)**: ロールアウト中に LLM-as-judge で模擬ユーザーの誤り(幻覚・情報欠落)を特定し、該当軌跡をアドバンテージ・損失計算からマスクする。エージェントの正しい行動が不公平に罰されることを防ぐ。
**(d) 環境レベルのアドバンテージ推定**: 元の GRPO はグループレベル(同一質問内の軌跡群)で標準偏差を算出するが、小グループや重尾分布で不安定になりやすい。ERPO は同一環境内の全質問・全軌跡でアドバンテージを正規化し、外れ値の影響を緩和して安定で正確な推定を実現する。
## 新規性
1. **完全自動のスケーラブル環境合成**: ツール記述文書のみを入力とし、人手アノテーション不要で模擬環境と高難度タスクを合成する統一パイプライン。推論ノード・エッジの導入でタスクの複雑さを体系的に制御する。
2. **環境レベルの RL アルゴリズム ERPO**: 模擬ユーザーの不安定性を MEU で吸収しつつ、環境レベルでアドバンテージを推定する。GRPO のグループレベル推定に対し外れ値耐性を向上させた。
3. **活性パラメータ 3B で先端クローズドソースに匹敵**: Qwen3-Thinking-30B-A3B をバックボーンに、200B 未満のオープンソースモデル中で最良の結果を達成。
## 実験設定
- **ベンチマーク(ドメイン内)**: τ-bench(Retail/Airline)、τ²-Bench(Retail/Airline/Telecom)、VitaBench(Delivery/In-store/OTA/Cross Domain)
- **ベンチマーク(ドメイン外)**: ACEBench-zh(カスタムフォーマット・中国語・未知ツール)
- **バックボーン**: Qwen3-Thinking-30B-A3B
- **環境合成**: Qwen3-Thinking-235B-A22B で 10 環境・1,078 タスクを合成
- **模擬ユーザー**: GPT-4.1(ロールアウト・評価)
- **比較対象**: クローズドソース(GPT-5-thinking / GPT-o3 / Claude-Sonnet-4 / Gemini-2.5-pro / GPT-o4-mini)、オープンソース(Kimi-K2 / DeepSeek-V3.1 / Qwen3-235B / AgentScaler-30B-A3B / MUA-RL-32B / xLAM-2 / Seed-OSS-36B 等)
- **GPU**: 64 基
- **バッチサイズ**: 32、サンプルあたり 8 軌跡
## 実験結果
- **ドメイン内(表 1)**: AutoForge-30B-A3B はバックボーン Qwen3-30B-A3B を全サブセットで上回る。τ-bench Airline で 48.0→56.5(+8.5)、τ²-Bench Telecom で 26.3→76.3(+50.0)、VitaBench Delivery で 35.0→46.0(+11.0)。200B 未満のオープンソースで最良。τ²-Bench Telecom ではクローズドソースの GPT-o3(58.2)・Claude-Sonnet-4(47.4) を大幅に超え、GPT-5-thinking(96.7)以外の全モデルを凌駕。
- **ドメイン外(図 2)**: ACEBench-zh で SFT・RL 双方がバックボーンを上回り、RL 版が最大の向上を示す。カスタムフォーマット・未知ツール・中国語(訓練データは全て英語)でも汎化が成立。
- **模擬ユーザーの影響(表 2)**: より優れたユーザー(GPT-5-thinking)に替えると τ²-Bench Telecom で 76.3→90.4(+14.1)と大幅向上。弱いユーザーが AutoForge の真の性能を過小評価していることを示唆。
- **アブレーション(図 3)**: 環境レベルアドバンテージ推定の除去で報酬曲線が不安定化。MEU 除去で後半に報酬が低下(模擬ユーザー誤りがエージェントの正しい行動を罰する)。インターリーブドシンキング除去で τ²-Bench 全サブセットが低下(図 4)。
- **時間効率(表 3)**: 模擬環境の実行時間は LLM 関連時間(ロールアウト + パラメータ更新)の約 1/6。ボトルネックは LLM ベースユーザーシミュレータの応答待ちであり、関数実行・結果取得は実質無料。
## 考察
AutoForge は「模擬環境のスケーリングがエージェント能力を伸ばす」という仮説を強く支持する。10 環境・1,078 タスクという比較的小規模な合成でも、活性パラメータ 3B のモデルがクローズドソースに匹敵する結果を示した。これは環境の数と多様性をスケールアップすればさらなる向上が見込めることを意味する。
MEU は模擬ユーザー依存のエージェント RL に共通の課題(ユーザーの幻覚がエージェントの学習を歪める)に対処する汎用的な手法で、τ²-Bench の Telecom のようにユーザーもツールを操作する高難度シナリオで特に効果が大きい。
## 強み
1. **エンドツーエンドの自動化**: ツール記述文書から環境合成・タスク生成・RL 訓練まで人手介入なし。再現性とスケーラビリティが高い。
2. **模擬ユーザー不安定性への体系的対処**: MEU + LLM-as-judge で訓練の公平性を確保する設計は、模擬ユーザーを使う全てのエージェント RL に応用可能。
3. **効率**: 合成環境の実行は LLM 推論より桁違いに速く、実環境 RL の待ち時間問題を根本的に解消。
4. **汎化**: 訓練データが英語のみ・Hermes ツール形式のみでも、中国語・カスタムフォーマット・未知ツールに汎化。
## 弱点・課題
1. **入力制約**: パイプラインはツール記述文書を前提とし、トピックや一般テキストからの環境構築は未対応。
2. **環境スケーリングの未探索**: 10 環境のみで実験し、環境数のスケーリング則は未定量化。
3. **報酬の粗さ**: 二値報酬(ゴールドステート完全一致)のみで、ターンレベルの価値監督は未導入。中間ステップの credit assignment が困難。
4. **模擬ユーザーへの依存**: 評価時にも GPT-4.1 を模擬ユーザーとして使うため、ユーザー能力が結果を律速する。GPT-5-thinking への置換で Telecom が +14.1 向上する事実がこの制約を明示。
5. **バックボーン限定**: Qwen3 以外のモデルでの検証がない。