AutoForge - yuuk1's Digital Garden

# AutoForge [[Tongyi Lab]]（[[Alibaba Group]]）が開発した、言語ベースエージェントのための模擬環境自動合成 + エージェント型 RL フレームワーク。ツール記述文書のみを入力とし、(1) 状態構造・Python 関数セットからなる模擬環境、(2) ツール依存グラフのランダムウォーク + 推論ノード/エッジ挿入で構成された高難度タスク、を完全自動で合成する。訓練には ERPO（Environment-level Relative Policy Optimization）を用い、GRPO のグループレベルアドバンテージ推定を環境レベルへ拡張し外れ値耐性を向上させる。模擬ユーザーの誤りをマスクする MEU 機構を備える。 Qwen3-Thinking-30B-A3B（活性パラメータ 3B）をバックボーンに、10 環境・1,078 タスクの合成で τ-bench・τ²-Bench・VitaBench の 200B 未満オープンソース最良を達成し、クローズドソース（GPT-o3・Claude-Sonnet-4）に匹敵する。ACEBench-zh でドメイン外汎化も確認。 ## 関連 - ソース: [[@2025__arXiv__AutoForge - Environment Synthesis for Agentic RL]] - 組織: [[Tongyi Lab]] / [[Alibaba Group]] - 概念: [[エージェント型強化学習]] / [[強化ファインチューニング]]