# The Landscape of Agentic Reinforcement Learning for LLMs: A Survey
> [!abstract]
> エージェント的強化学習(Agentic RL)の出現は、LLM に適用される従来の強化学習からのパラダイムシフトを示す。本サーベイはこの概念的転換を、LLM RL の退化した単一ステップマルコフ決定過程(MDP)と、Agentic RL を定義する時間的に拡張された部分観測マルコフ決定過程(POMDP)の対比により定式化する。コアとなるエージェント能力(計画・ツール使用・記憶・推論・自己改善・知覚)を軸としたタクソノミーと、多様なタスクドメインにまたがる応用を軸としたタクソノミーの二重分類を提案する。500 を超える近年の研究を統合し、オープンソース環境・ベンチマーク・フレームワークの実用的便覧を提供する。
## 論文情報
| 項目 | 内容 |
|---|---|
| タイトル | The Landscape of Agentic Reinforcement Learning for LLMs: A Survey |
| 著者 | [[Guibin Zhang]]†, Hejia Geng†, Xiaohang Yu†, [[Zhenfei Yin]]*, Zaibin Zhang, [[Zelin Tan]], Heng Zhou, Zhongzhi Li, Xiangyuan Xue, Yijiang Li, Yifan Zhou, [[Yang Chen]], [[Chen Zhang (Shanghai AI Lab)]], Yutao Fan, Zihu Wang, Songtao Huang, Francisco Piedrahita-Velez, Yue Liao, Hongru Wang, Mengyue Yang, Heng Ji, Jun Wang, Shuicheng Yan, [[Philip Torr]], [[Lei Bai]]* |
| 所属 | [[University of Oxford]], [[Shanghai AI Laboratory]], [[National University of Singapore]], UIUC, Brown University, UCL, USTC, Imperial College London, DUT, CAS, CUHK, U of Georgia, UCSD, UCSB, U of Bristol |
| 刊行 | Transactions on Machine Learning Research (TMLR), 2026年1月 |
| arXiv | 2509.02547 (v1: 2025-09-02, v5: 2026-04-17) |
| 分類 | cs.AI, cs.CL |
| 分量 | 95 ページ、500 超の文献を統合 |
| 査読 | OpenReview: `RY19y2RI1O` |
## 概要
大規模言語モデル(LLM)と強化学習(RL)の急速な融合が、言語モデルの設計・訓練・展開のあり方を根本的に変容させている。初期の LLM RL パラダイムはモデルを静的な条件付き生成器として扱い、単一ターン出力をヒト嗜好やベンチマークスコアに合わせる最適化にとどまっていた。この限界を超え、LLM を知覚・推論・計画・ツール呼び出し・記憶維持・戦略適応を行う自律的意思決定エージェントとして捉える新パラダイム――**エージェント的強化学習(Agentic RL)**――が台頭している。
本サーベイは Agentic RL を定式化し、従来の RL との相違を明確に打ち出した上で、能力とタスクの二重タクソノミーによりフィールド全体を体系的にマッピングする。
## 問題設定
従来の嗜好ベース強化ファインチューニング(PBRFT)は以下の退化した MDP として定式化される:
- 状態空間: 単一プロンプト `{prompt}`、ホライズン `T=1`
- 行動空間: 純テキスト系列
- 遷移: 決定的(ターミナル状態への即時遷移)
- 報酬: 単一スカラー `r(a)`
- 目的: `E[r(a)]`
一方、Agentic RL は以下の POMDP として定式化される:
- 状態空間: `st ∈ S_agent`、観測 `ot = O(st)`、ホライズン `T > 1`
- 行動空間: テキスト行動 `A_text` ∪ 環境操作行動 `A_action`(再帰的構成を許容)
- 遷移: 確率的遷移関数 `P(st+1 | st, at)`
- 報酬: ステップごとの `R(st, at)`(タスク報酬 + サブ報酬の組み合わせ)
- 目的: 割引累積報酬 `E[Σ γ^t R(st, at)]`
この対比こそが、単一ターンのテキスト品質整合から、マルチターン計画・適応的ツール呼び出し・状態を持つ記憶・長期的な功績割り当てへの移行を象徴する。
### RL アルゴリズム族(§2.7)
4 つの代表的アルゴリズム族を整理し、表 2 に 30 超の変種を集成する。
- **REINFORCE** — 最古の方策勾配。簡潔だが高分散・低サンプル効率
- **PPO 族** — 方策比のクリッピングで安定更新。VAPO(適応的 KL + 分散制御)、LitePPO(安定アドバンテージ更新)、VinePPO(不偏価値推定)等
- **DPO 族** — 明示的報酬モデル不要の嗜好最適化。SimPO(系列平均対数確率を暗黙報酬に)、IPO(嗜好ギャップの正則化)、KTO(知識転移)等
- **GRPO 族** — DeepSeek-R1 で注目。グループ内相対報酬でアドバンテージを推定し、批評家ネットワークを排除。DAPO(デカップルドクリップ + 動的サンプリング)、Dr.GRPO(GRPO の偏り除去)、StarPO(推論誘導型マルチターン行動)、DARS(難易度別計算再配分)等が急増中
## 提案手法(二重タクソノミー)
### 能力軸タクソノミー(§3)
6 つのコアなエージェント能力を RL がどう強化するかを体系化する:
1. **計画(Planning)** — RL を外部ガイド(MCTS 等の探索を価値関数で誘導)と内部ドライバ(LLM を方策として直接最適化)の二形態に整理。将来方向として熟慮と直観の統合を展望
2. **ツール使用(Tool Use)** — ReAct 的呼び出し → ツール統合推論(TIR) → 長期的 TIR の三段階進化を追跡。ToolRL 等により、模倣ではなく成果駆動型最適化でツール使用を学習
3. **記憶(Memory)** — RAG 的記憶 → トークンレベル記憶(明示的/潜在的)→ 構造化記憶の三層に整理。RL が「何を保存し、いつ検索し、どう忘れるか」を制御
4. **自己改善(Self-Improvement)** — 言語的自己修正 → RL による内在化 → 反復的自己訓練(自己対戦、実行ガイド型カリキュラム、集合的ブートストラップ)の三段階
5. **推論(Reasoning)** — 二重過程理論に基づく高速推論(システム 1)と低速推論(システム 2)の分類。低速推論を RL でエージェント環境に統合する課題を議論
6. **知覚(Perception)** — 受動的知覚から能動的視覚認知への進化。接地駆動型・ツール駆動型・生成駆動型の三方向。音声ドメインへの拡張も包含
### タスクドメイン軸タクソノミー(§4)
8 つの応用ドメインに RL がもたらす影響を分析:
1. **検索・研究エージェント** — RAG 基盤に RL を導入し自律的ディープリサーチへ進化。オープンソース系は DeepRetrieval(GRPO で一発クエリ生成を最適化)、Search-R1(検索トークンマスキング+成果報酬)、WebThinker(深層ウェブ探索+DPO)、ASearcher(非同期 RL で 40 回超のツール呼び出し)等。LLM 内部知識による疑似検索エンジン(ZeroSearch, SSRL)は API コスト問題を回避する。クローズドソース系では OpenAI Deep Research が BrowseComp で 51.5% pass@1 を達成
2. **コードエージェント** — コード生成(成果報酬 RL: AceCoder, DeepCoder-14B / 過程報酬 RL: StepCoder, PRLCoder)→ 反復的コード改良(RLEF: 実行フィードバック)→ 自動 SWE(SWE-RL, AgentCoder)の三層。実行意味論の明示性と自動テスト信号の可用性がエージェント RL の理想的テストベッドを形成
3. **数学エージェント** — 非形式的数学は GRPO ベースの推論最適化が主流。形式的数学は Lean/Isabelle 等の証明支援系での RL 活用が進む
4. **GUI エージェント** — RL フリー手法 → 静的 GUI 環境での RL → インタラクティブ GUI 環境での RL の三段階進化
5. **視覚エージェント** — Visual-RFT, R1-V, PAPO 等が VLM への GRPO 適用を先導。視覚的接地と推論の統合が鍵
6. **身体化エージェント** — VLM と RL の組み合わせによるロボット操作・ナビゲーション。視覚言語行動モデルの方策最適化
7. **マルチエージェント** — エージェント間の協調・競合を RL で最適化。マルチエージェントパス計画(MAPF-DT)や集合的ブートストラップ(SiriuS)等
8. **その他** — 金融取引、科学的発見、ヘルスケア等の新興ドメイン。長期ホライズン相互作用における過程監督と割引報酬の統合が共通課題
## 新規性
1. **Agentic RL の定式化**: LLM RL(退化 MDP)と Agentic RL(POMDP)を明確に対比する形式的定義を初めて提示
2. **二重タクソノミー**: 能力軸(6 能力)とタスクドメイン軸(8 ドメイン)の直交する分類体系
3. **RL アルゴリズム族の比較**: PPO・DPO・GRPO 族の各変種を統一的に表形式で比較(表 2 に 30 超の変種)
4. **実用便覧**: 環境・ベンチマーク・フレームワークの統合カタログ(§5、表 8〜11)
5. **規模**: 500 超の文献を統合した、Agentic RL 分野初の包括的サーベイ
## 主要な知見
- **能力間の相互依存**: 計画・ツール使用・記憶・推論・自己改善・知覚は独立パイプラインではなく、RL で共同最適化可能な相互依存的方策である
- **GRPO 族の急成長**: DeepSeek-R1 の成功を契機に、GRPO 変種が爆発的に増加。表 2 に 20 超の変種が列挙される。グループ相対報酬により価値推定器を不要にしたことが主要な効率化要因
- **TIR の普及**: ツール統合推論は特殊能力からエージェント型モデルの標準機能へ移行。OpenAI o3、Kimi K2、Qwen QwQ-32B 等の商用モデルが RL で調整された TIR 戦略を組み込む
- **RL のメカニズム論争**: RL が LLM 推論を強化する仕組みについて「増幅器」派(既存能力の再重み付け)と「新知識」派(質的に新しい計算の獲得)が対立。数学推論の事例研究では約 2/3 が pass@1 改善(増幅器的)、約 1/3 が pass@k フロンティアの拡大(新能力的)を報告
- **環境ボトルネック**: ALFWorld・ScienceWorld 等の既存環境は汎用エージェント訓練には不十分との合意が形成。環境自体を学習可能な対象とする共進化アプローチ(自動報酬設計、自動カリキュラム生成)が次のフロンティア
## 考察
### 未解決の課題と将来方向(§6)
1. **信頼性(Trustworthiness)**
- **セキュリティ**: エージェントはツール・記憶・計画モジュール経由の間接的プロンプトインジェクション等、従来 LLM より広い攻撃面を持つ。RL は報酬ハッキングにより安全でない行動を積極的に強化しうる
- **幻覚**: 成果駆動型 RL は最終回答の正しさのみを報酬とし、根拠のない中間推論を助長しうる。過程ベース報酬(FSPO 等)が緩和策
- **追従性(Sycophancy)**: RLHF は報酬モデルの偏りを通じてユーザーの誤った信念への追従を強化しうる
2. **エージェント訓練のスケーリング**
- **計算量**: エージェント RL スケーリング則が示すように、長時間訓練はツール使用頻度・推論深度・タスク精度を体系的に改善
- **モデルサイズ**: 大規模化はエントロピー崩壊と能力境界の狭化のリスクを伴う
- **データサイズ**: クロスドメイン RL は相乗効果と干渉の複雑な相互作用を示す
- **効率**: POLARIS 等の手法により、少数の単純な戦略の組み合わせがより複雑な手法を上回ることが示される
3. **エージェント環境のスケーリング**: 静的環境から動的・最適化可能なシステムへ。自動報酬設計と適応的カリキュラム生成による共進化的「訓練フライホイール」
4. **RL のメカニズム論争**: 増幅器仮説と新知識仮説の統合的理解が必要。高忠実度・構成的・中間的難易度のタスク条件下で「新能力」的振る舞いが最も確実に出現
5. **実世界展開のアーキテクチャパターン**: ガードレール・人間参加型検証・階層的オーケストレーション・エージェント間通信プロトコルの4つの設計原則
6. **社会的インパクト**: デュアルユースリスク(スリーパーエージェント)、環境持続可能性、労働市場への影響、バイアス増幅、評価汚染
## 強み
- 500 超の文献を統合した Agentic RL 分野初の包括的サーベイであり、分断的に進行する研究を統一的フレームワークで整理
- MDP/POMDP の形式的対比により、従来 LLM RL と Agentic RL の本質的差異を明確に示す
- 能力×タスクの二重タクソノミーが直交する視点を提供し、任意のエントリポイントからフィールドを俯瞰可能
- PPO/DPO/GRPO 族の変種比較表(表 2)が実務的に有用
- 環境・ベンチマーク・フレームワークの便覧(§5)が再現性と後続研究を支援
- RL のメカニズム論争(§6.4)を数学推論の事例研究で具体化し、両仮説の適用条件を整理
## 弱点・課題
- 95 ページ・500 超文献の網羅性ゆえに、個々の研究の技術的詳細は浅い記述にとどまる
- タスクドメイン§4 は列挙的であり、ドメイン間の構造的比較や統一的な成功要因の抽出は限定的
- 能力間の相互依存性を主張しつつ、共同最適化の実証や定量的分析は不十分
- RL のメカニズム論争は「約 2/3 が増幅器的、約 1/3 が新能力的」という定性的集計にとどまり、条件の厳密な分析には至っていない
- 既存環境の不十分さを指摘しつつ、具体的な環境設計指針は概念的提案の段階
- 2025 年 9 月初出・2026 年 4 月更新であり、急速に進化する分野では収録範囲の鮮度維持が困難
## 代表的システム・手法(本サーベイで重点的に扱われるもの)
| 手法 | ドメイン | RL 方式 | 特筆事項 |
|---|---|---|---|
| DeepSeek-R1 | 推論全般 | GRPO | GRPO 族急増の契機 |
| ToolRL | ツール使用 | 成果報酬 RL | 模倣なしでツール使用が創発 |
| VOYAGER | 計画 | 反復的スキルライブラリ構築 | 生涯学習型の適応的方策 |
| Memory-R1 | 記憶 | PPO/GRPO | 構造化記憶操作(ADD/UPDATE/DELETE) |
| Absolute Zero | 自己訓練 | 自己対戦 RL | 人間データなしで自らタスクを生成・解決 |
| Search-R1 | 検索 | GRPO + トークンマスキング | インターリーブ型クエリ生成 |
| OpenAI Deep Research | 検索 | RL + ツール統合 | BrowseComp 51.5% pass@1 |
## 環境・フレームワーク便覧(§5 の要点)
- **RL 環境**: ALFWorld, ScienceWorld, WebArena, OSWorld, SWE-bench, GAIA 等を集成。既存環境の不十分さが共通認識
- **RL フレームワーク**: OpenRLHF, veRL, TRL, RAGEN 等のオープンソースフレームワークを列挙し、Agentic RL 訓練の技術基盤を提供
## 関連
- [[@2025__NVIDIA__LLM-Inference-Benchmarking-Fundamental-Concepts]] — LLM 推論のベンチマーク基礎概念
- [[@2025__ACM Computing Surveys__Towards Efficient Generative Large Language Model Serving]] — LLM サービングサーベイ(推論効率化の別軸)
## RL のメカニズム論争の詳細(§6.4)
本サーベイの独自の貢献の一つとして、RL が LLM 推論を強化する仕組みに関する二つの競合する説明を整理し、数学推論の事例研究で検証している。
- **増幅器仮説**: RL は事前学習で獲得済みの推論パスに確率質量を集中させるのみ。大規模 k での pass@k 分析では、ベースモデルが最終的に RL 調整済みモデルに追いつくことが多い
- **新知識仮説**: RL は次トークン予測だけでは統計的・計算的に到達不能な汎化を可能にする。検証・バックトラッキング・サブゴール設定などの認知的行動がベースモデルになかったにもかかわらず出現
- **本サーベイの見解**: 高忠実度の報酬信号、組成的・多段構造、中間レジームのモデルの三条件が揃うとき「新能力」的振る舞いが最も確実に現れる。低ノイズのベンチマークや粗い成果報酬のみでは RL は主に増幅器として機能する
## 出典
- (Source: [[@2025__arXiv__The Landscape of Agentic Reinforcement Learning]])