# AutoForge
[[Tongyi Lab]]([[Alibaba Group]])が開発した、言語ベースエージェントのための模擬環境自動合成 + エージェント型 RL フレームワーク。ツール記述文書のみを入力とし、(1) 状態構造・Python 関数セットからなる模擬環境、(2) ツール依存グラフのランダムウォーク + 推論ノード/エッジ挿入で構成された高難度タスク、を完全自動で合成する。訓練には ERPO(Environment-level Relative Policy Optimization)を用い、GRPO のグループレベルアドバンテージ推定を環境レベルへ拡張し外れ値耐性を向上させる。模擬ユーザーの誤りをマスクする MEU 機構を備える。
Qwen3-Thinking-30B-A3B(活性パラメータ 3B)をバックボーンに、10 環境・1,078 タスクの合成で τ-bench・τ²-Bench・VitaBench の 200B 未満オープンソース最良を達成し、クローズドソース(GPT-o3・Claude-Sonnet-4)に匹敵する。ACEBench-zh でドメイン外汎化も確認。
## 関連
- ソース: [[@2025__arXiv__AutoForge - Environment Synthesis for Agentic RL]]
- 組織: [[Tongyi Lab]] / [[Alibaba Group]]
- 概念: [[エージェント型強化学習]] / [[強化ファインチューニング]]