Agentic-RL-Cameron-Wolfe-2026 - yuuk1's Digital Garden

# Agentic RL: Frameworks and Best Practices > Cameron R. Wolfe(Deep (Learning) Focus、2026-06-22)によるエージェント型 RL の 5 フレームワーク比較サーベイ記事。LLM をツール・多段推論・長期意思決定に使う RL 訓練の設計原則を体系化する。 > URL: https://cameronrwolfe.substack.com/p/agentic-rl ## 記事の位置づけ単一ターン推論から多段エージェントへの移行を受け、RL 訓練インフラに求められる新要素（多段軌跡・スケーラブルなロールアウト環境・モジュール構造・安定した多段学習手法）を整理。以下の 5 フレームワークを詳細に比較する。 ## 1. エージェントの基本構成エージェントの 4 コア要素: - **LLM バックボーン** — 推論トレースを先行生成する思考型モデルが有利 - **指示(Instructions)** — ドメイン情報・問題解決戦略を提供。脆弱性と保守性のバランスが重要 - **ツールと環境** — API・CLI・MCP サーバーを通じて外部状態を変更するメカニズム - **エージェントループ** — 出力生成 → ツール呼び出し → 環境フィードバック → 終了判定を繰り返すコンテキスト管理(圧縮・切り捨て)と外部メモリ(ツール経由の状態永続化)がループの実用性を左右する。 ## 2. MDP 形式化 ### シングルターン MDP - **状態**: 現在のトークンコンテキスト(プロンプト + 生成済みトークン) - **行動**: 次トークン予測で選ぶトークン - **遷移**: 選択トークンを決定論的に追記 - **報酬**: 完成したロールアウトに付与される終端報酬 ### マルチターン(エージェント型) MDP - **状態**: LLM 可視コンテキスト + 外部環境状態の結合状態 - **行動**: 各ステップでエージェントが生成するテキスト列(ツール呼び出しを含む) - **遷移**: テキストトークン追記 + ツール実行による環境変更(非決定論的) - **報酬**: 終端報酬 + 中間プロセス報酬の組み合わせ - **軌跡**: 指示・行動・ツール呼び出し・観測・報酬・環境状態を含む全対話トレース ## 3. 5 フレームワーク比較 ### 3-1. ToRL — ツール統合 RL **核心**: RL-Zero セットアップ(事前学習済みベースモデル + 後処理なし)でコードインタープリタをツールとして追加し、報酬駆動探索でツール利用を自然習得させる。 **重要発見**: - ツール呼び出し上限 `C` を設けることで過剰利用を抑制 - エラーメッセージは最終行のみに切り捨てしてコンテキスト過負荷を防ぐ - コード出力は RL 損失からマスクする(外部コンテキストとして扱う) - ツール利用率が訓練中に 40% → 80% まで増加し、エラーリカバリ行動が創発 - SFT ベースラインに対し 14.7% の絶対精度改善(Qwen2.5-Math-7B) - LIMR データ選択(難易度より学習可能性で優先順位付け)が有効 **報酬設計**: 正解 +1 / 不正解 −1 / 実行不可能コード −0.5(が、純粋アウトカム報酬と同等だった) ### 3-2. AgentGym-RL — 長期ホライズン意思決定訓練 **核心**: 標準化 HTTP インターフェースで複数ドメイン環境をモジュラー接続し、ScalingInter-RL カリキュラムで段階的にホライズンを伸ばす。 **ScalingInter-RL カリキュラム戦略**: - フェーズ数 `N=3`、各フェーズ `Δ=80` ステップ - ターン予算: 8 → 12 → 15 インタラクション - ホライズンを段階的に伸ばすことで計画・内省・戦略的バックトラッキングの高次行動が創発 **工学的改良**: - WebArena: 単一ブラウザ設計をサブプロセス並行インスタンス管理に変更 - SciWorld: 並行作成・リセットのロバスト化 **結果**: - Qwen2.5-3B が RL 訓練後に大半の独自モデルを上回る - ルールベースドメイン(TextCraft/SciWorld)で RL 恩恵が最大 - 実世界環境(WebArena)では恩恵が穏やか(難易度とフィジビリティのトレードオフ) - RL 訓練済みエージェントがテスト時スケーリング(逐次インタラクション + 並列サンプリング)で自然に有利 ### 3-3. Agent-R1 — ステップレベル軌跡と統一フレームワーク > 詳細は [[@2025__arXiv__Agent-R1 - Training Agents with End-to-End RL]] と [[エージェント型強化学習]] を参照。 **主要革新**: - **ステップレベル軌跡**: メッセージ単位でなく各エージェント-環境インタラクションステップを基本単位として保存 → 再トークン化ドリフトを排除 - **柔軟なコンテキスト管理**: 環境別ルールで全保持・要約・削除・変換を切り替え - **行動マスク**: エージェント生成トークンのみに損失を適用するバイナリマスク - **PPO/GRPO/REINFORCE++ を同一基盤で比較**: GRPO が算術・検索・具現化で最良、PPO がショッピングで最強コンテキスト管理の比較: スライディングウィンドウ > 追記のみ > LLM 要約の順で訓練品質が高い。 ### 3-4. AgentRL — 完全非同期マルチタスクフレームワーク > 詳細は [[@2025__arXiv__AgentRL - Training Language Model Agents with Reinforcement Learning]] と [[AgentRL]] を参照。 **主要革新**: - **完全非同期パイプライン**: 推論エンジンと訓練エンジンを分離リソースプールで並行。訓練エンジンが完了済み軌跡を引き取る形式でバッチサイズが min/max 内で変動。ロールアウト時間のばらつきによる GPU 利用率低下を解消。 - **オフポリシー緩和**: 最大データキューサイズを制限し、各更新で完全ドレイン。 - **クロスポリシーサンプリング**: 複数モデルバージョンが同一軌跡内で行動を生成 → 単一ポリシー探索不可能な状態空間をカバー - **タスクレベルアドバンテージ正規化**: GRPO スタイルのグループ相対アドバンテージを計算後、タスクドメイン別にさらに正規化(ゼロ平均・単位分散) → 単一ドメインによる更新支配を防ぐ **結果**: Qwen2.5-32B でマルチタスク RL が GPT-4o と Claude-Sonnet-4 を超過。Qwen2.5-3B も大半の独自モデルを凌駕。未学習タスク BFCL-v3 でも正転移。 ### 3-5. AutoForge — 合成環境の自動生成 > 詳細は [[@2025__arXiv__AutoForge - Environment Synthesis for Agentic RL]] を参照。 **核心**: ツール文書だけから環境と高難度タスクを LLM ループで自動合成する。 **ERPO(環境相対政策最適化)**: 1. 思考トレースを各ステップで保持(インターリーブド思考) 2. シミュレートユーザー応答のエラーを LLM が判定し、エラー軌跡を損失から除外 3. アドバンテージ推定をプロンプトグループでなく環境レベルで実施 → 外れ値ロバスト性改善 ## 4. 横断的ベストプラクティス ### 設計原則 | 軸 | ベストプラクティス | |---|---| | 軌跡表現 | ステップレベル保存 + 明示的な境界でドリフト防止 | | スケーラビリティ | 非同期ロールアウト-訓練デカップリング | | 安定性 | カリキュラム学習 + ドメイン別正規化 + クロスポリシーサンプリング | | モジュール性 | 標準化ツール/環境インターフェース | | 報酬設計 | アウトカム報酬のみでも十分。長期ホライズンはプロセス報酬が有効 | | コンテキスト管理 | スライディングウィンドウが追記のみより優れる場合がある | ### RL オプティマイザ比較 - **GRPO**: ルールベースドメイン全般で最強 - **PPO**: 実世界・ノイジーな環境で優れた安定性 - **REINFORCE**: 標準的だが特定環境で保守的方策に収束するリスク ### モデルスケール知見 - 3〜7B の小規模モデルでも RL 訓練で大規模独自モデルに匹敵 - RL 訓練済み小規模エージェントはテスト時スケーリング効果が大きい ## 5. 関連概念リンク - 概念: [[エージェント型強化学習]] / [[非同期エージェントRL]] / [[強化ファインチューニング]] / [[検証可能報酬による強化学習]] - フレームワーク実体: [[AgentRL]] / [[Agent-R1]] - ソース: [[@2025__arXiv__AgentRL - Training Language Model Agents with Reinforcement Learning]] / [[@2025__arXiv__Agent-R1 - Training Agents with End-to-End RL]] / [[@2025__arXiv__AutoForge - Environment Synthesis for Agentic RL]] - 著者: [[Cameron R. Wolfe]]