# Agentic RL: Frameworks and Best Practices
> Cameron R. Wolfe(Deep (Learning) Focus、2026-06-22)によるエージェント型 RL の 5 フレームワーク比較サーベイ記事。LLM をツール・多段推論・長期意思決定に使う RL 訓練の設計原則を体系化する。
> URL: https://cameronrwolfe.substack.com/p/agentic-rl
## 記事の位置づけ
単一ターン推論から多段エージェントへの移行を受け、RL 訓練インフラに求められる新要素(多段軌跡・スケーラブルなロールアウト環境・モジュール構造・安定した多段学習手法)を整理。以下の 5 フレームワークを詳細に比較する。
## 1. エージェントの基本構成
エージェントの 4 コア要素:
- **LLM バックボーン** — 推論トレースを先行生成する思考型モデルが有利
- **指示(Instructions)** — ドメイン情報・問題解決戦略を提供。脆弱性と保守性のバランスが重要
- **ツールと環境** — API・CLI・MCP サーバーを通じて外部状態を変更するメカニズム
- **エージェントループ** — 出力生成 → ツール呼び出し → 環境フィードバック → 終了判定を繰り返す
コンテキスト管理(圧縮・切り捨て)と外部メモリ(ツール経由の状態永続化)がループの実用性を左右する。
## 2. MDP 形式化
### シングルターン MDP
- **状態**: 現在のトークンコンテキスト(プロンプト + 生成済みトークン)
- **行動**: 次トークン予測で選ぶトークン
- **遷移**: 選択トークンを決定論的に追記
- **報酬**: 完成したロールアウトに付与される終端報酬
### マルチターン(エージェント型) MDP
- **状態**: LLM 可視コンテキスト + 外部環境状態の結合状態
- **行動**: 各ステップでエージェントが生成するテキスト列(ツール呼び出しを含む)
- **遷移**: テキストトークン追記 + ツール実行による環境変更(非決定論的)
- **報酬**: 終端報酬 + 中間プロセス報酬の組み合わせ
- **軌跡**: 指示・行動・ツール呼び出し・観測・報酬・環境状態を含む全対話トレース
## 3. 5 フレームワーク比較
### 3-1. ToRL — ツール統合 RL
**核心**: RL-Zero セットアップ(事前学習済みベースモデル + 後処理なし)でコードインタープリタをツールとして追加し、報酬駆動探索でツール利用を自然習得させる。
**重要発見**:
- ツール呼び出し上限 `C` を設けることで過剰利用を抑制
- エラーメッセージは最終行のみに切り捨てしてコンテキスト過負荷を防ぐ
- コード出力は RL 損失からマスクする(外部コンテキストとして扱う)
- ツール利用率が訓練中に 40% → 80% まで増加し、エラーリカバリ行動が創発
- SFT ベースラインに対し 14.7% の絶対精度改善(Qwen2.5-Math-7B)
- LIMR データ選択(難易度より学習可能性で優先順位付け)が有効
**報酬設計**: 正解 +1 / 不正解 −1 / 実行不可能コード −0.5(が、純粋アウトカム報酬と同等だった)
### 3-2. AgentGym-RL — 長期ホライズン意思決定訓練
**核心**: 標準化 HTTP インターフェースで複数ドメイン環境をモジュラー接続し、ScalingInter-RL カリキュラムで段階的にホライズンを伸ばす。
**ScalingInter-RL カリキュラム戦略**:
- フェーズ数 `N=3`、各フェーズ `Δ=80` ステップ
- ターン予算: 8 → 12 → 15 インタラクション
- ホライズンを段階的に伸ばすことで計画・内省・戦略的バックトラッキングの高次行動が創発
**工学的改良**:
- WebArena: 単一ブラウザ設計をサブプロセス並行インスタンス管理に変更
- SciWorld: 並行作成・リセットのロバスト化
**結果**:
- Qwen2.5-3B が RL 訓練後に大半の独自モデルを上回る
- ルールベースドメイン(TextCraft/SciWorld)で RL 恩恵が最大
- 実世界環境(WebArena)では恩恵が穏やか(難易度とフィジビリティのトレードオフ)
- RL 訓練済みエージェントがテスト時スケーリング(逐次インタラクション + 並列サンプリング)で自然に有利
### 3-3. Agent-R1 — ステップレベル軌跡と統一フレームワーク
> 詳細は [[@2025__arXiv__Agent-R1 - Training Agents with End-to-End RL]] と [[エージェント型強化学習]] を参照。
**主要革新**:
- **ステップレベル軌跡**: メッセージ単位でなく各エージェント-環境インタラクションステップを基本単位として保存 → 再トークン化ドリフトを排除
- **柔軟なコンテキスト管理**: 環境別ルールで全保持・要約・削除・変換を切り替え
- **行動マスク**: エージェント生成トークンのみに損失を適用するバイナリマスク
- **PPO/GRPO/REINFORCE++ を同一基盤で比較**: GRPO が算術・検索・具現化で最良、PPO がショッピングで最強
コンテキスト管理の比較: スライディングウィンドウ > 追記のみ > LLM 要約 の順で訓練品質が高い。
### 3-4. AgentRL — 完全非同期マルチタスクフレームワーク
> 詳細は [[@2025__arXiv__AgentRL - Training Language Model Agents with Reinforcement Learning]] と [[AgentRL]] を参照。
**主要革新**:
- **完全非同期パイプライン**: 推論エンジンと訓練エンジンを分離リソースプールで並行。訓練エンジンが完了済み軌跡を引き取る形式でバッチサイズが min/max 内で変動。ロールアウト時間のばらつきによる GPU 利用率低下を解消。
- **オフポリシー緩和**: 最大データキューサイズを制限し、各更新で完全ドレイン。
- **クロスポリシーサンプリング**: 複数モデルバージョンが同一軌跡内で行動を生成 → 単一ポリシー探索不可能な状態空間をカバー
- **タスクレベルアドバンテージ正規化**: GRPO スタイルのグループ相対アドバンテージを計算後、タスクドメイン別にさらに正規化(ゼロ平均・単位分散) → 単一ドメインによる更新支配を防ぐ
**結果**: Qwen2.5-32B でマルチタスク RL が GPT-4o と Claude-Sonnet-4 を超過。Qwen2.5-3B も大半の独自モデルを凌駕。未学習タスク BFCL-v3 でも正転移。
### 3-5. AutoForge — 合成環境の自動生成
> 詳細は [[@2025__arXiv__AutoForge - Environment Synthesis for Agentic RL]] を参照。
**核心**: ツール文書だけから環境と高難度タスクを LLM ループで自動合成する。
**ERPO(環境相対政策最適化)**:
1. 思考トレースを各ステップで保持(インターリーブド思考)
2. シミュレートユーザー応答のエラーを LLM が判定し、エラー軌跡を損失から除外
3. アドバンテージ推定をプロンプトグループでなく環境レベルで実施 → 外れ値ロバスト性改善
## 4. 横断的ベストプラクティス
### 設計原則
| 軸 | ベストプラクティス |
|---|---|
| 軌跡表現 | ステップレベル保存 + 明示的な境界でドリフト防止 |
| スケーラビリティ | 非同期ロールアウト-訓練デカップリング |
| 安定性 | カリキュラム学習 + ドメイン別正規化 + クロスポリシーサンプリング |
| モジュール性 | 標準化ツール/環境インターフェース |
| 報酬設計 | アウトカム報酬のみでも十分。長期ホライズンはプロセス報酬が有効 |
| コンテキスト管理 | スライディングウィンドウが追記のみより優れる場合がある |
### RL オプティマイザ比較
- **GRPO**: ルールベースドメイン全般で最強
- **PPO**: 実世界・ノイジーな環境で優れた安定性
- **REINFORCE**: 標準的だが特定環境で保守的方策に収束するリスク
### モデルスケール知見
- 3〜7B の小規模モデルでも RL 訓練で大規模独自モデルに匹敵
- RL 訓練済み小規模エージェントはテスト時スケーリング効果が大きい
## 5. 関連概念リンク
- 概念: [[エージェント型強化学習]] / [[非同期エージェントRL]] / [[強化ファインチューニング]] / [[検証可能報酬による強化学習]]
- フレームワーク実体: [[AgentRL]] / [[Agent-R1]]
- ソース: [[@2025__arXiv__AgentRL - Training Language Model Agents with Reinforcement Learning]] / [[@2025__arXiv__Agent-R1 - Training Agents with End-to-End RL]] / [[@2025__arXiv__AutoForge - Environment Synthesis for Agentic RL]]
- 著者: [[Cameron R. Wolfe]]