@2025__arXiv__Agent-R1 - Training Agents with End-to-End RL

# Agent-R1: A Unified and Modular Framework for Agentic Reinforcement Learning > [!abstract] > 大規模言語モデル(LLM)は単発のテキスト生成器から、推論・意思決定・ツール利用・長期的タスクに対応する高度なエージェントの基盤へと急速に進化した。こうしたエージェントの挙動を形成するうえで強化学習(RL)の重要性が増しており、とりわけエージェント型 RL ではモデルが複数ラウンドにわたりツールや環境と対話する必要がある。この体制では、軌跡を際限なく伸びるトークン列と見なす従来の見方はますます不十分になり、コンテキスト進化の硬直性やロールアウトと訓練の表現不整合を引き起こす。本論文はステップレベルの軌跡表現・柔軟なコンテキスト管理・ワークフロー/環境/最適化のための階層的インターフェースを中心に据えた、エージェント型 RL のための統合的かつモジュール式フレームワーク Agent-R1 を提示する。各対話ステップを RL 遷移の基本単位として扱い、最適化層は柔軟に保つ――ステップレベルでモデリングした後、トークンレベルの credit assignment にもステップレベルの credit assignment にも対応可能である。これらの設計により本フレームワークは単一のアルゴリズムに縛られず、幅広い最適化戦略と共存できる。 ## 論文情報 - **著者**: [[Mingyue Cheng]], Shuo Yu, Daoyu Wang, Qingchuan Li, [[Xiaoyu Tao]], Jie Ouyang, Yucong Luo, Yitong Zhou, [[Qi Liu]], [[Enhong Chen]] - **所属**: [[University of Science and Technology of China]] State Key Laboratory of Cognitive Intelligence - **責任著者**: Mingyue Cheng ([email protected]) - **出版**: arXiv:2511.14460v2 [cs.CL], 2025-11-24 初出、2026-05-30 改訂 - **リポジトリ**: https://github.com/AgentR1/Agent-R1 ## 概要 Agent-R1 は、LLM エージェントのマルチターン RL 訓練のための統合的かつモジュール式のフレームワークである。従来のトークンレベル MDP やメッセージベースの軌跡表現では、ロールアウトと訓練の間の表現不整合(再トークン化ドリフト)やコンテキスト構築の硬直性が問題となる。Agent-R1 はステップレベル MDP 抽象化を核心に据え、各対話ラウンドを観測・行動・環境フィードバック・報酬・次観測の構造化された遷移として保存することで、ロールアウトの忠実な再現と柔軟なコンテキスト管理を両立させる。 ## 問題設定 LLM の RL 訓練が単発の応答生成からマルチターンのエージェント対話へ移行するにつれ、3 つの実際的な課題が生じる。 1. **軌跡表現**: メッセージベースの保存はテキスト復元→再トークン化を経るため、元のロールアウトとトークン列が一致しない再トークン化ドリフトを引き起こす(式 11-12)。行動境界のずれ、実効的な行動マスクの変質、対数確率の歪みに至る。 2. **コンテキスト管理**: ツール出力の冗長さ、中間推論の無関連性、長い対話履歴のコンテキスト予算超過に対し、追記のみの固定戦略では対応不能。 3. **システム統合**: LLM 推論エンジン(vLLM・SGLang)と大規模訓練フレームワーク(DeepSpeed・FSDP・Megatron-LM)は個別に高度に発達しているが、RL 訓練はこの 2 つを 1 つのループに結合する必要がある。 ## 提案手法 ### ステップレベル MDP 各対話ラウンドを RL 遷移の基本単位として定式化する。ロールアウトはステップトレースの列 $\tau = \{z_t\}_{t=0}^{T-1}$ として記録され、各 $z_t = (o_t, a_t, e_t, r_t, o_{t+1})$ は観測・行動・環境フィードバック・報酬・次観測を含む(式 4, 8)。環境はステップ遷移演算子 $E(o_t, a_t) = (o_{t+1}, r_t, d_t, e_t)$ として統一的に扱われる(式 5, 7)。 ### ステップレベル軌跡表現ステップ境界を明示的に保持してロールアウトのトークン列をそのまま保存し、再トークン化ドリフトを防止する(図 4)。行動マスク $m_{t,j}$ を用いて、方策勾配更新の対象をエージェント行動トークンのみに絞る(式 9)。汎用的なマスク付き方策目的関数(式 10)で PPO・GRPO いずれにも対応する。 ### 柔軟なコンテキスト管理次観測の構成を環境固有のコンテキスト規則 $o_{t+1} = C(z_0, z_1, \ldots, z_t)$ で定義する(式 6, 13)。追記のみ・証拠集中選択・要約状態など、タスクに応じた記憶管理が可能になる(図 5)。ステップレベル表現があるから、再現用の正確な記録と次ステップへの公開コンテキストを分離でき、これが両設計の鍵となる。 ### 階層的インターフェースワークフロー実行・ロールアウトサンプリング・モデルサービング・大規模最適化のインフラ側と、報酬定義・アドバンテージ推定・credit assignment のアルゴリズム側を共通のステップネイティブな対話境界で接続し、アルゴリズムの追加・差替えを容易にする。 **Figure 1: 図** ![[_attachments/arxiv-2511.14460/fig1-figure.png]] (Figure 1. 論文中の主要な図を示す。) **Figure 2: 図** ![[_attachments/arxiv-2511.14460/fig2-figure.png]] (Figure 2. Figure 2 Optimization in agentic RL. Interactive trajectories collected during rollout are replayed by the training loop を示す。) ## 新規性 1. **ステップレベル MDP の明示化**: 既存フレームワーク(veRL・slime はトークンレベル、Agent Lightning・AReaL・rLLM はステップレベルだがコンテキスト管理が暗黙)に対し、ステップレベル MDP とコンテキスト管理の**両方**を明示化した初のフレームワーク(表 1)。 2. **軌跡表現の 3 段階進化の整理**: メッセージトレース→トークン空間保存→構造化ステップトレースの進化を定式化(図 4)。 3. **コンテキスト管理の汎用的定式化**: 環境側のコンテキスト構成規則を $C(\cdot)$ として一般化し、追記のみ・スライディングウィンドウ・要約を同一の数学的枠組みで扱う。 4. **マルチアルゴリズム比較基盤**: 同一のロールアウト・環境・報酬設定のもとで PPO・GRPO・Reinforce++・RLOO を公正に比較できる共通基盤を提供。 ## 実験設定 - **モデル**: Qwen3-4B - **ベンチマーク**: GSM8K(算術推論 + サンドボックスコーディング)、HotpotQA(検索ベースのマルチホップ QA)、ALFWorld(具現化家庭内対話)、WebShop(模擬オンライン購買) - **RL アルゴリズム**: GRPO、PPO、Reinforce++、RLOO - **ベースライン**: ReAct(訓練なし) - **コンテキスト管理戦略**(GSM8K 上の制御実験): 追記のみ、スライディングウィンドウ、LLM 要約 - **報酬**: 回答正解性 + フォーマット成分の組み合わせ ## 実験結果 ### タスク横断(表 2) | 手法 | GSM8K (%) | HotpotQA (%) | ALFWorld Seen (%) | ALFWorld Unseen (%) | WebShop Score (%) | WebShop SR (%) | |---|---|---|---|---|---|---| | ReAct | 53.1 | 25.8 | 7.14 | 2.98 | 51.58 | 23.8 | | GRPO | **83.3** | **59.4** | **81.29** | **74.58** | 65.83 | 44.2 | | PPO | 78.1 | 56.7 | 76.42 | 72.38 | **70.18** | **46.0** | | Reinforce++ | 78.9 | 52.8 | 73.84 | 69.57 | 63.41 | 41.8 | | RLOO | 81.6 | 55.2 | 79.08 | 73.46 | 68.02 | 45.1 | - 4 つの RL 手法すべてが訓練なしベースラインを大幅に上回る。 - 最適なアルゴリズムはタスクにより異なる:GRPO は算術・検索・具現化で最良、PPO はショッピングで最強。 ### アルゴリズム比較(図 7、GSM8K) - GRPO と RLOO が後期段階の正解率で最強。PPO はより不安定。 - Reinforce++ は正解率は比較的高いが報酬は大幅に低い。応答長が後期に短くなり、正解を出せるが訓練信号全体の最大化には保守的な方策を学習。マルチターンのツール拡張 RL では、高い正解率が高い報酬を意味しないことを示す。 ### コンテキスト管理比較(図 8、GSM8K + GRPO) - スライディングウィンドウが最良。追記のみは弱く、LLM 要約は小規模モデル設定で最も劣る。 - 直近の関連証拠のみ保持する方が、無制限の履歴蓄積やノイズの多いモデル生成要約より清浄な学習信号を生む。 - LLM 要約の低性能はサマリー型記憶の一般的否定ではなく、変換品質自体が訓練問題の一部になることを示唆。 ## 考察 Agent-R1 はステップレベル MDP という抽象化を軸に、エージェント型 RL の設計空間を整理する。論文自身が認める主な限界は: 1. **接頭辞の計算冗長性**: 追記のみの履歴下で異なる訓練サンプルが長い共通接頭辞を共有する場合、個別にステップレベル記録を訓練すると同じ接頭辞が繰り返し計算される。MiniMax Forge が探索する接頭辞共有・木構造マージが今後の方向性。 2. **非同期ロールアウト未対応**: ロールアウトワーカーと訓練バックエンドは分離されているが、軌跡収集と最適化更新の同期が必要。遅いツール・分岐ワークフロー・永続環境ではロールアウトがボトルネックになる。AReaL のような完全非同期実行が今後の課題。 3. **高品質 RL データ**: マルチターン設定ではデータ品質が最終的な成否だけでなく、中間的な意思決定・有意義なツール対話・有用な探索パターンにも依存する。データ生成・フィルタリング・カリキュラム設計の改善が最適化器自体と同等に重要。 ## 強み - ステップレベル MDP・軌跡表現・コンテキスト管理を統一的な数学的枠組みで定式化し、設計空間を明確にした。 - 4 つの RL アルゴリズム(PPO・GRPO・Reinforce++・RLOO)を同一条件で公正に比較できる基盤を提供。 - 4 つの異なるタスク(算術推論・マルチホップ QA・具現化対話・ウェブ購買)で一貫した訓練改善を実証。 - 関連研究の整理が体系的で、エージェント型 RL のアルゴリズム(Turn-PPO・StepPO・GiGPO・AgentPRM・SWEET-RL)とフレームワーク(veRL・slime・Agent Lightning・rLLM・AReaL・MiniMax Forge・Claw-R1)を包括的にサーベイ。 - OSS として公開 (github.com/AgentR1/Agent-R1)。 ## 弱点・課題 - **実験規模が小さい**: Qwen3-4B(4B パラメータ)のみ。7B・70B 以上の大規模モデルでの検証がない。 - **タスク多様性**: 4 タスクとも比較的標準的なベンチマーク。より実際的な長期間・高分岐のエージェントタスク(ソフトウェア開発・科学実験)での評価がない。 - **コンテキスト管理の制御実験が限定的**: GSM8K 上の GRPO のみで 3 戦略を比較。他タスク・他アルゴリズムでの組み合わせは未検証。 - **ステップレベル credit assignment の具体実装がない**: フレームワークの柔軟性を主張するが、ステップレベル credit assignment の具体的なアルゴリズム実装・評価は今後の課題とされる。 - **定量的なオーバーヘッド・スケーラビリティの測定がない**: 接頭辞冗長性の定量的影響や、GPU 数に対するスケーリング特性の報告がない。