エージェント型強化学習 - yuuk1's Digital Garden

# エージェント型強化学習 ## 定義 LLM を方策(ポリシー)としてオンポリシーの RL で事後学習する取り組みの総称。GRPO・PPO・DPO 等のアルゴリズムで問題あたり複数のロールアウトを生成し、報酬信号(バイナリ正解判定・検証器フィードバック等)で方策を更新する。古典的 RL と異なり、データ生成コストの中心はシミュレータ操作でなくモデル自身のサンプリング計算量にある。問題混合上で多数ロールアウトを並列生成する際の問題間干渉が古典設定では現れない LLM 固有の課題となる。(Source: [[@2026__arXiv__IsoCompute Playbook - Optimally Scaling Sampling Compute for LLM Reinforcement Learning]] §1–§2) [[@2025__arXiv__The Landscape of Agentic Reinforcement Learning]] は、Agentic RL を従来の嗜好ベース強化ファインチューニング（PBRFT、退化 MDP・ホライズン T=1）と対比し、時間的に拡張された POMDP $\langle S, A, P, R, \gamma, O \rangle$ として形式化する。行動空間はテキスト行動 $A_{\text{text}}$ と環境操作行動 $A_{\text{action}}$ の合併であり、後者は再帰的に合成可能。この形式化は、LLM を受動的系列生成器から動的環境に埋め込まれた自律的意思決定エージェントへ再構成するパラダイムシフトを表す。(Source: [[@2025__arXiv__The Landscape of Agentic Reinforcement Learning]] §2) [[Agent-R1]] はマルチターンのエージェント型 RL をステップレベル MDP として定式化する。各対話ラウンドを構造化遷移 $z_t = (o_t, a_t, e_t, r_t, o_{t+1})$ として保存し、環境をステップ遷移演算子 $E(o_t, a_t) = (o_{t+1}, r_t, d_t, e_t)$ で記述する。次観測をコンテキスト構成規則 $C(z_0, \ldots, z_t)$ で定義し、追記のみ・スライディングウィンドウ・要約などの記憶管理を環境側で柔軟に切替える。PPO・GRPO・Reinforce++・RLOO を同一基盤上で比較し、最適アルゴリズムがタスクにより異なることを 4 ベンチマーク(GSM8K/HotpotQA/ALFWorld/WebShop)で実証した。(Source: [[@2025__arXiv__Agent-R1 - Training Agents with End-to-End RL]] §2.4, §3, §4) ## 横断的知見 - **マルチタスク訓練が汎化可能な行動能力を生む**: AgentRL の単一 14B モデルは 5 タスク個別特化モデルの最良値(67.8%)に匹敵する 67.7% を達成し、未知タスク BFCL-v3 でも +1.5 の正転移を確認。タスクアドバンテージ正規化でタスク間の異質性を制御する。IsoCompute Playbook が指摘する問題間干渉をタスクレベルの正規化で緩和する実践例。(Source: [[@2025__arXiv__AgentRL - Training Language Model Agents with Reinforcement Learning]], [[@2026__arXiv__IsoCompute Playbook - Optimally Scaling Sampling Compute for LLM Reinforcement Learning]]) - **交差方策サンプリングがモデル能力境界を超える探索を実現**: AgentRL は同一モデルの現在版と過去版から各ステップでランダムに行動を抽出し、pass@k で単一モデル・混合モデルを上回る状態空間カバレッジを達成。IsoCompute の「困難問題ではカバレッジ拡張」と同方向だが、$n$ を増やすのでなくモデルプールの多様性で解決する。(Source: [[@2025__arXiv__AgentRL - Training Language Model Agents with Reinforcement Learning]]) - **計算予算配分が性能を左右する構造**: LLM RL は探索と最適化が密結合した問題であり、同一の計算予算を「どう配分するか」が性能を大きく左右する。IsoCompute Playbook は並列ロールアウト数 $n$・問題バッチサイズ $B_p$・更新ステップ数 $M$ の 3 軸配分が問題難易度によって異なるメカニズムで性能を駆動することを示した。この「困難問題ではカバレッジ拡張、容易問題ではシャープニング」という二重機構は、エージェント型 RL のスケールアップにおいて問題セットの構成を事前診断する必要性を示唆する。(Source: [[@2026__arXiv__IsoCompute Playbook - Optimally Scaling Sampling Compute for LLM Reinforcement Learning]]) - **SFT 不要仮説の横断的補強**: DeepSWE は Qwen3-32B からの SFT なしコールドスタートが、Claude Sonnet 3.7/4 の軌跡による SFT ウォームスタートを 100 RL イテレーション以降で上回ることを示した。これは IsoCompute Playbook の「探索予算の最適化が模倣データからの初期化より有効」という構造と整合する。SFT による模倣バイアスが RL の探索を妨げうるという示唆は DeepSeek-R1 の知見とも一致し、エージェント型 RL における「純粋 RL コールドスタートの優位性」が複数ソースで再現されつつある。(Source: [[@2025__Together AI__DeepSWE - Training a Fully Open-sourced State-of-the-Art Coding Agent by Scaling RL]], [[@2026__arXiv__IsoCompute Playbook - Optimally Scaling Sampling Compute for LLM Reinforcement Learning]]) - **不完全軌跡の処理がマルチターン固有の課題**: DeepSWE の Compact Filtering(コンテキスト長枯渇・タイムアウト・ステップ上限到達の軌跡を損失マスク)は、シングルターン設定の IsoCompute Playbook には現れないマルチターンエージェント特有の問題を解決する。エージェントが環境と長時間対話する設定では、不完全な軌跡が方策更新を汚染する「報酬崩壊」が発生し、軌跡単位のフィルタリング機構が必要になる。Agent-R1 のステップレベル MDP 定式化も不完全軌跡を構造的に扱う設計だが、DeepSWE は Compact Filtering という明示的なフィルタで実用的に解決した。(Source: [[@2025__Together AI__DeepSWE - Training a Fully Open-sourced State-of-the-Art Coding Agent by Scaling RL]], [[@2025__arXiv__Agent-R1 - Training Agents with End-to-End RL]]) - **テスト時スケーリングと訓練時スケーリングの相補性**: DeepSWE は Pass@1(42.2%)からテスト時スケーリング(ハイブリッド Best@16 で 59.0%)へのギャップが大きく、ロールアウト K=8 で主要利得を獲得する。IsoCompute Playbook がロールアウト数 $n$ の訓練時スケーリング則を示すのに対し、DeepSWE はテスト時のロールアウトスケーリングが訓練時の不足を補完しうることを示す。この 2 つの知見は「訓練時と推論時のロールアウト予算をどう最適配分するか」という統一問題を浮かび上がらせる。(Source: [[@2025__Together AI__DeepSWE - Training a Fully Open-sourced State-of-the-Art Coding Agent by Scaling RL]], [[@2026__arXiv__IsoCompute Playbook - Optimally Scaling Sampling Compute for LLM Reinforcement Learning]]) - **創発的行動が RL のみで出現する証拠**: DeepSWE では明示的に設計していないエッジケース検討(異なる入力・データ型の自律的考慮、回帰テスト探索)や適応的思考トークン配分(デバッグ時約 2,000 トークン、単純ステップで 100--200 トークン)が純粋 RL から創発した。Agent-R1 がフレームワーク設計の構造化を攻めるのに対し、DeepSWE は同等の環境を備えた 32B モデルにおいてこれらの行動が自然発生することを実証し、創発のスケール条件を示唆する。(Source: [[@2025__Together AI__DeepSWE - Training a Fully Open-sourced State-of-the-Art Coding Agent by Scaling RL]], [[@2025__arXiv__Agent-R1 - Training Agents with End-to-End RL]]) - **二重タクソノミーが分野全体の依存構造を可視化**: [[@2025__arXiv__The Landscape of Agentic Reinforcement Learning]] は能力軸（計画・ツール利用・記憶・自己改善・推論・知覚）とタスク軸（検索・コード・数学・GUI・ビジョン・身体化・マルチエージェント）の二重タクソノミーで 500 本超の文献を体系化し、表 9 の能力×タスク依存行列を提示した。Agent-R1 がタスクによる最適アルゴリズムの差を実験的に示した知見と合わせると、「どのタスクにどの能力が必要か」の構造がスケーリング則の適用範囲の制約条件になりうる。(Source: [[@2025__arXiv__The Landscape of Agentic Reinforcement Learning]] 表 9, [[@2025__arXiv__Agent-R1 - Training Agents with End-to-End RL]]) - **RL が「増幅器」か「新知識源」かの論争が定量的に整理された**: サーベイ §6.4 によれば約 2/3 の研究が pass@1 改善（既存推論パスの確率再配分=増幅器）、約 1/3 が pass@k フロンティアの拡張（質的に新しい計算=新知識）に分類される。新知識的行動が信頼性高く出現する 3 条件は (i) 高忠実度の検証可能報酬、(ii) 合成的・多段構造、(iii) ベースモデルが中間レジームにあること。DeepSWE の創発的行動や Agent-R1 の「高正解率≠高報酬」の乖離は、この整理枠組みの中で位置づけが可能になる。(Source: [[@2025__arXiv__The Landscape of Agentic Reinforcement Learning]] §6.4, [[@2025__Together AI__DeepSWE - Training a Fully Open-sourced State-of-the-Art Coding Agent by Scaling RL]], [[@2025__arXiv__Agent-R1 - Training Agents with End-to-End RL]]) - **ツール統合推論（TIR）がエージェント能力の進化軸として定式化された**: サーベイは ReAct 型プロンプトベース → SFT ベース → RL 最適化の TIR の 3 段階進化を体系化し、ToolRL が SFT 痕跡なしのベースモデルから自己修正・適応的呼び出し頻度・複合ツール構成の創発を示す知見を整理した。IsoCompute Playbook のサンプリング計算量配分の議論に「ツール呼び出しを含む軌跡の計算コスト」という次元が加わる。(Source: [[@2025__arXiv__The Landscape of Agentic Reinforcement Learning]] §3.2, [[@2026__arXiv__IsoCompute Playbook - Optimally Scaling Sampling Compute for LLM Reinforcement Learning]]) - **最適アルゴリズムのタスク依存性**: Agent-R1 は 4 ベンチマークで GRPO・PPO・Reinforce++・RLOO を同一条件比較し、GRPO が算術・検索・具現化で最良、PPO がショッピングで最強と実証した。IsoCompute Playbook が GRPO を基準にべき乗則を議論し、AgentRL も GRPO をベースとする一方、Agent-R1 の結果はスケーリング則がアルゴリズム選択に依存しうることを示唆する。(Source: [[@2025__arXiv__Agent-R1 - Training Agents with End-to-End RL]] 表 2, [[@2026__arXiv__IsoCompute Playbook - Optimally Scaling Sampling Compute for LLM Reinforcement Learning]], [[@2025__arXiv__AgentRL - Training Language Model Agents with Reinforcement Learning]]) - **高正解率と高報酬の乖離**: Agent-R1 の GSM8K 実験で Reinforce++ は正解率が比較的高いが報酬が大幅に低く、応答長が後期に短縮される保守的方策を学習した。マルチターンのツール拡張 RL では「高い正解率 ≠ 高い報酬」が成立しうる。IsoCompute Playbook が暗黙に仮定する「報酬の単調増加 = 性能向上」の前提に疑問を投げかける。(Source: [[@2025__arXiv__Agent-R1 - Training Agents with End-to-End RL]] 図 7, [[@2026__arXiv__IsoCompute Playbook - Optimally Scaling Sampling Compute for LLM Reinforcement Learning]]) - **コンテキスト管理が訓練品質を左右する**: Agent-R1 の制御実験で、スライディングウィンドウ > 追記のみ > LLM 要約の順にコンテキスト管理戦略が訓練品質に影響した。直近の関連証拠のみ保持する方が無制限の履歴蓄積やモデル生成要約より清浄な学習信号を生む。計算量・データ量・モデルサイズの 3 軸で議論されるスケーリング則に「軌跡表現・コンテキスト管理」という第 4 の次元を追加しうる。(Source: [[@2025__arXiv__Agent-R1 - Training Agents with End-to-End RL]] 図 8) - **同期 RL パイプラインの実用的安定性と偏りのないサンプリングの重要性**: Golubev+(2025)は 16×8 H200 の完全同期 RL パイプラインで 72B モデルを 131K コンテキストで訓練した。vLLM アップグレード時に top-k/min-p フィルタが暗黙に有効化され、ロールアウト分布 $\pi_{\text{rollout}}$ が真の方策 $\pi_{\theta_{\text{old}}}$ と乖離したことで重点サンプリング比が無効化され、5〜10 イテレーション後に性能が劣化した。この知見は AgentRL の非同期パイプライン(方策ラグが許容可能と主張)に対し、サンプリング分布と訓練分布の一致が方策ラグ以上に重要な安定性条件であることを示唆する。(Source: [[@2025__arXiv__Training Long-Context Multi-Turn SWE Agents with Reinforcement Learning]] §5.2, [[@2025__arXiv__AgentRL - Training Language Model Agents with Reinforcement Learning]]) - **産業コーディングエージェントのターゲット RL が「密な報酬信号 vs スパースな報酬信号」の対立軸を補強**: [[@2026__Cursor__Introducing Composer 2.5]] は軌跡中の特定箇所にテキストヒントを挿入するターゲット RL で Composer 2.5 を訓練した。DeepSWE が二値報酬のみのスパースな信号で SWE-Bench SOTA を達成し「SFT 不要仮説」を補強する一方、Cursor は密な局所フィードバックの有効性を産業レベルで示す。両者は探索空間の性質が異なる可能性がある——広大なコードベース探索(DeepSWE)ではスパース報酬がグローバルな探索を促進し、IDE 統合のマルチツール環境(Cursor)では局所ヒントが信用割当を効率化する。(Source: [[@2026__Cursor__Introducing Composer 2.5]], [[@2025__Together AI__DeepSWE - Training a Fully Open-sourced State-of-the-Art Coding Agent by Scaling RL]]) - **長軌跡フィルタリングの罠が「不完全軌跡処理」問題の別の側面を照らす**: Golubev+(2025)はコンテキスト長超過の軌跡を破棄すると、繰り返しループに陥る失敗モードの負例も消えてしまいループ脱出を学習できなくなると報告した。DeepSWE の Compact Filtering(不完全軌跡の損失マスク)が「ノイズ除去」を目的とするのに対し、Golubev+(2025)は「負例保存」の重要性を強調しており、不完全軌跡の処理には除去と保存のバランスが必要であることが 2 つの独立ソースから浮かび上がる。(Source: [[@2025__arXiv__Training Long-Context Multi-Turn SWE Agents with Reinforcement Learning]] §5.2, [[@2025__Together AI__DeepSWE - Training a Fully Open-sourced State-of-the-Art Coding Agent by Scaling RL]]) - **コンテキスト管理がスケーリングの前提条件として産業規模で確認された**: Kimi-Researcher はコンテキスト管理なしでは 10 イテレーション以内に上限到達、管理ありで 50 イテレーション超に拡張し、30% 多くのイテレーションを利用して性能を向上させた。Agent-R1 のスライディングウィンドウ優位の結論と方向性が一致し、「コンテキスト管理が RL スケーリングの第 4 の次元」という仮説を産業規模のリサーチエージェントでさらに補強する。(Source: [[@2025__Moonshot AI__Kimi-Researcher - End-to-End RL Training for Emerging Agentic Capabilities]], [[@2025__arXiv__Agent-R1 - Training Agents with End-to-End RL]] 図 8) - **ガンマ減衰報酬がステップレベルの信用割当の軽量代替として機能する**: Kimi-Researcher は結果報酬をステップ位置で $r \times \gamma^{(T-i)}$ と重み付けし、短い正解軌跡を優遇する。Agent-R1 が未解決とした「ステップレベルの credit assignment」の問題に対し、ターンレベルアドバンテージ推定(GiGPO)やステップレベル報酬分解(SpaRL)とは異なり、報酬の時間割引という古典的な手法で近似解を与えている。実装の単純さと引き換えに、中間ステップの寄与を正確に帰属できない限界がある。(Source: [[@2025__Moonshot AI__Kimi-Researcher - End-to-End RL Training for Emerging Agentic Capabilities]], [[@2025__arXiv__Agent-R1 - Training Agents with End-to-End RL]] §5) - **SFT 不要仮説が検索エージェント領域でも再現された**: Kimi-Researcher はエンドツーエンドの RL のみで HLE 8.6% → 26.9% を達成し、SFT やワークフロー設計を経ずに SOTA に到達した。DeepSWE がコーディングエージェントで SFT 不要を示し、Kimi-Researcher が検索・推論エージェントでも同様の成功を収めたことで、「純粋 RL コールドスタートの優位性」が少なくとも 3 つの独立ソース(DeepSWE・DeepSeek-R1・Kimi-Researcher)でタスク横断的に再現されている。(Source: [[@2025__Moonshot AI__Kimi-Researcher - End-to-End RL Training for Emerging Agentic Capabilities]], [[@2025__Together AI__DeepSWE - Training a Fully Open-sourced State-of-the-Art Coding Agent by Scaling RL]]) - **ターンレベル部分ロールアウトが長尾問題の効率的解法として浮上**: Kimi-Researcher は時間バジェット超過タスクをリプレイバッファに保存し後続イテレーションで更新済み重みで継続する機構で 1.5 倍以上の高速化を達成した。AgentRL の完全非同期パイプライン(GPU 利用率最大化)とは相補的なアプローチであり、「非同期生成-訓練」(AgentRL)と「部分ロールアウト継続」(Kimi-Researcher)の 2 つの効率化軸が独立に発展している。(Source: [[@2025__Moonshot AI__Kimi-Researcher - End-to-End RL Training for Emerging Agentic Capabilities]], [[@2025__arXiv__AgentRL - Training Language Model Agents with Reinforcement Learning]]) - **産業規模のエージェント RL が MoE + エージェントネイティブインフラの協調設計で成立する**: [[MiniMax-M2]] の [[Forge]] は 229.9B/9.8B MoE の長期ホライズン(192K トークン・数千行動)エージェント RL を本番規模で実現した。Agent-R1([[@2025__arXiv__Agent-R1 - Training Agents with End-to-End RL]])がステップレベル MDP として方策/環境境界を定式化した知見と整合しつつ、Forge はブラックボックスエージェントの統一サポート・Windowed FIFO スケジューリング・接頭辞木マージ(最大 40×)という産業的解決を加える。MoE の疎な活性化は同一の計算予算で桁違いのモデル容量を提供し、エージェント RL の「スループット vs 安定性 vs 柔軟性」の三律背反を計算効率側から緩和する。(Source: [[@2026__arXiv__The MiniMax-M2 Series - Mini Activations Unleashing Max Real-World Intelligence]], [[@2025__arXiv__Agent-R1 - Training Agents with End-to-End RL]]) - **混合ドメイン RL が SFT 不要仮説と創発的行動の両立条件を拡張する**: M2 シリーズはエージェントコーディング・コワーク・推論・汎用の 4 ドメインを同時に RL で最適化し、ドメイン混合比・コンテキスト長・難易度を段階的に調整する。DeepSWE が SFT なしコールドスタートの優位性を単一ドメイン(コーディング)で示したのに対し、M2 は SFT 段階(インターリーブド思考の instill)を経たうえで混合ドメイン RL を行い、シリーズ内で M2→M2.5→M2.7 と全ベンチマークで一貫した改善を達成する。SFT が RL の探索を妨げるか補完するかはドメイン混合の粒度と SFT データの性質に依存することを示唆する。(Source: [[@2026__arXiv__The MiniMax-M2 Series - Mini Activations Unleashing Max Real-World Intelligence]], [[@2025__Together AI__DeepSWE - Training a Fully Open-sourced State-of-the-Art Coding Agent by Scaling RL]]) - **自己進化が RL の「増幅器 vs 新知識」論争に新たなデータ点を加える**: M2.7 は自身の訓練ランのデバッグ・スキャフォールドの修正・100 ラウンドの自律イテレーションで 30% の性能向上を達成した。サーベイ([[@2025__arXiv__The Landscape of Agentic Reinforcement Learning]] §6.4)が整理した「新知識的行動の 3 条件(高忠実度の検証可能報酬・合成的多段構造・中間レジームのベースモデル)」のうち、M2.7 の自己進化はモデルが自身の訓練インフラを環境として操作する質的に新しい行動空間を開き、RL が「新知識源」として機能しうる条件を拡張する。(Source: [[@2026__arXiv__The MiniMax-M2 Series - Mini Activations Unleashing Max Real-World Intelligence]], [[@2025__arXiv__The Landscape of Agentic Reinforcement Learning]]) - **ドメイン特化の継続事前学習→RL パイプラインの定量的指針**: [[Composer 2]]([[@2026__arXiv__Composer 2 Technical Report]])はコードベースパープレキシティと下流 RL 報酬の対数線形相関を示し、継続事前学習の効果が RL 段まで予測可能に伝播することを定量化した。DeepSWE が「SFT なし純粋 RL」で成功し、M2 が「SFT + 混合ドメイン RL」で成功するのに対し、Composer 2 は「ドメイン特化事前学習 + RL」という第三の経路でフロンティアに到達する。さらに、Composer 2 は平均性能と best-of-K 性能の双方が RL 訓練期間を通じて改善したと報告し、「RL はエントロピー削減のみ」という懸念への反証を追加する。(Source: [[@2026__arXiv__Composer 2 Technical Report]] §3-§4, 図 2, 図 5, [[@2025__Together AI__DeepSWE - Training a Fully Open-sourced State-of-the-Art Coding Agent by Scaling RL]], [[@2026__arXiv__The MiniMax-M2 Series - Mini Activations Unleashing Max Real-World Intelligence]]) - **大規模エージェント型データ合成が「環境のスケーリング」の産業的解法として具体化された**: [[Kimi K2]] は MCP ツール 3,000 超 + 合成ツール 20,000 超の行動空間で、ルーブリックベースの多段マルチターン軌跡生成パイプラインを構築した。AutoForge が環境自動合成で RL 訓練環境を自動生成するのに対し、Kimi K2 はツール空間そのものを産業規模に拡大する設計を取る。サーベイ([[@2025__arXiv__The Landscape of Agentic Reinforcement Learning]] §6.5)が「環境のスケーリング」を主要未解決課題に挙げたのに対し、Kimi K2 は合成ツール + MCP 統合でツール空間を 1 桁以上拡大し、実環境と合成環境の混合で SWE-bench Verified 65.8% を達成した。この規模のツール空間でのエージェント型データ合成の成功は、環境スケーリングが性能向上の律速でなくなりうる可能性を示す。(Source: [[@2025__arXiv__Kimi K2 - Open Agentic Intelligence]], [[@2025__arXiv__The Landscape of Agentic Reinforcement Learning]] §6.5, [[@2025__arXiv__AutoForge - Environment Synthesis for Agentic RL]]) - **自己批判型ルーブリック報酬が検証不能タスクへの RL 適用を拡大する**: Kimi K2 は検証可能な報酬(RLVR)に加え、モデル自身が生成するルーブリック評価を報酬として統合する自己批判型ルーブリック報酬を採用した。DeepSWE がテスト通過の二値報酬のみで成功し、Cursor がテキストヒントの密な報酬を示した「報酬の粒度」軸に加え、Kimi K2 は「報酬の自動生成」という直交する軸を開く。検証可能報酬と自己批判報酬の閉ループは、サーベイが「新知識的行動の条件」に挙げた「高忠実度の検証可能報酬」の要件を、自己批判を通じて主観的タスクへ拡張する試みとして位置づけられる。(Source: [[@2025__arXiv__Kimi K2 - Open Agentic Intelligence]], [[@2025__Together AI__DeepSWE - Training a Fully Open-sourced State-of-the-Art Coding Agent by Scaling RL]], [[@2026__Cursor__Introducing Composer 2.5]]) - **検索エージェント RL は報酬設計だけでなくノイズ流量制御の問題でもある**: Dai らは Closed-Loop Training を LLM 向け IR の最終段に置き、Self-RAG/FLARE/DRAGIN のような検索タイミング制御、OpenRAG/RouteRAG/Search-R1 のようなエンドツーエンド方策学習、Reflexion/MemGPT/AutoRAG/DSPy のような自己進化を、静的フィルタではなく動的なノイズ制御として整理する。Kimi-Researcher や AgentRL のような検索・ツール統合 RL は、正解報酬を最大化するだけでなく、いつ検索しないか、どの証拠を捨てるかを学ぶ問題としても読める。(Source: [[@2026__SIGIR__LLM-Oriented Information Retrieval - A Denoising-First Perspective]], [[@2025__Moonshot AI__Kimi-Researcher - End-to-End RL Training for Emerging Agentic Capabilities]], [[@2025__arXiv__AgentRL - Training Language Model Agents with Reinforcement Learning]]) - **RLVR(GRPO)が時系列・映像という連続値ドメインへ展開し、ドメイン固有報酬関数の設計空間が広がった**: [[@2025__NeurIPS__Time-R1 - Post-Training Large Vision Language Model for Temporal Video Grounding]] は映像言語タスク(TVG)に tIoU 報酬(IoU + タイムスタンプ偏差ペナルティ)+フォーマット報酬の GRPO 訓練を適用し、2.5K サンプルで 339K サンプル(136 倍)の SFT-LoRA を超えた。[[@2026__ICLR2026__TimeOmni-1 - Incentivizing Complex Reasoning with Time Series in Large Language Models]] は時系列推論に MAE 正規化指数減衰報酬 R_count + 系列長ボーナス + 離散一致 R_discrete を組み合わせ、GPT-4.1 を因果発見精度 40.6%(ID)上回る。両者とも DeepSeek-R1 の規則ベース報酬 + GRPO の枠組みを継承しながら、連続値タスク向けの新しい報酬関数を加えた。詳細は [[検証可能報酬による強化学習]] を参照。(Source: [[@2025__NeurIPS__Time-R1 - Post-Training Large Vision Language Model for Temporal Video Grounding]], [[@2026__ICLR2026__TimeOmni-1 - Incentivizing Complex Reasoning with Time Series in Large Language Models]], [[@2025__arXiv__DeepSeek-R1 - Incentivizing Reasoning Capability in LLMs via Reinforcement Learning]]) - **コールドスタート CoT + GRPO の二段階訓練が時系列・映像でも有効**: Time-R1 と TimeOmni-1 はともに、少数の CoT フォーマット例で推論の型を定着させてから RL に移行する二段階訓練を採用する。TimeOmni-1 は Stage 1 を飛ばすと因果発見精度が −5.3% になることをアブレーションで明示。「RLVR はゼロからの誘導器でなくテンポラルプライアの精錬器」という観察は、サーベイ([[@2025__arXiv__The Landscape of Agentic Reinforcement Learning]])が「増幅器 vs 新知識」論争で挙げた両極のうち増幅器側の証拠を新ドメインで蓄積する。(Source: [[@2025__NeurIPS__Time-R1 - Post-Training Large Vision Language Model for Temporal Video Grounding]], [[@2026__ICLR2026__TimeOmni-1 - Incentivizing Complex Reasoning with Time Series in Large Language Models]], [[@2025__arXiv__The Landscape of Agentic Reinforcement Learning]]) - **RL-Zero セットアップでツール利用が創発し、ツール呼び出し率が 40% → 80% まで増加する**: ToRL は後処理一切なしのベースモデルに RL のみでコードインタープリタ利用を習得させ、Qwen2.5-Math-7B で SFT 比 14.7% の絶対精度改善を達成した。エラーリカバリ行動の創発と適応的呼び出し頻度の学習は、[[エージェント型強化学習]] が「RL が新知識源か増幅器か」と問う論争において、ツール統合という新次元での新知識的行動の具体例を提供する。ツール呼び出し上限 `C` がなければ過剰呼び出しで精度が落ちることから、ツール空間における探索の「天井」を人間設計で制限する必要があることが実践的に確認された。(Source: [[Agentic-RL-Cameron-Wolfe-2026]]) - **ScalingInter-RL カリキュラムが長期ホライズンの高次行動を 3 フェーズで段階的に引き出す**: AgentGym-RL は 8 → 12 → 15 インタラクションターンのカリキュラム(N=3フェーズ、各Δ=80イテレーション)で、ホライズン拡張とともに計画・内省・戦略的バックトラッキングという高次行動が創発することを示した。Qwen2.5-3B が RL 訓練後に大半の独自モデルを凌駕し、小規模モデルへの RL 効果が大規模独自モデルに匹敵する「RL の民主化」を補強する。ただしルールベースドメイン(TextCraft/SciWorld)では恩恵が顕著なのに対し、実世界環境(WebArena)では恩恵が穏やかであり、「RL の恩恵は環境の決定論性に依存する」という仮説を提示する。(Source: [[Agentic-RL-Cameron-Wolfe-2026]]) - **5 フレームワーク横断比較が「非同期デカップリング」「ステップレベル軌跡」「タスク別正規化」をベストプラクティスとして収束させる**: [[Cameron-R-Wolfe|Cameron R. Wolfe]] によるサーベイ([[Agentic-RL-Cameron-Wolfe-2026]])は、ToRL / AgentGym-RL / Agent-R1 / AgentRL / AutoForge を比較し、(1) ステップレベル軌跡が再トークン化ドリフトを防ぐ、(2) 非同期パイプラインがロールアウト時間変動を吸収する、(3) タスク/環境レベルのアドバンテージ正規化が多タスク安定性を確保する、という 3 原則が独立フレームワークで再発見されていることを示す。これは Agent-R1 のステップレベル MDP 定式化・AgentRL の非同期エンジン・AutoForge の ERPO が、同じ構造的問題(軌跡の境界・ロールアウト分散・勾配不均衡)に対する独立した解法として同型であることを意味する。(Source: [[Agentic-RL-Cameron-Wolfe-2026]]) ## 未解決の問い - IsoCompute Playbook はシングルターンのバイナリ報酬設定に限定。マルチターン環境(ツール利用・コードデバッグ・エージェント型タスク)では $n$ のスケーリング飽和がどう変化するか。DeepSWE がマルチターンかつ二値報酬で成功した事実は、$n^*(C)$ 処方のマルチターン拡張の手がかりとなりうる - 問題間干渉はタブラー設定では生じない LLM 固有の現象として同定されたが、干渉のメカニズム(勾配方向の衝突か、方策エントロピーの歪みか)の因果的分解は未達 - [[エージェント型時系列予測]] の [[Cast-R1]] は GRPO をマルチターンのツール選択に適用しているが、IsoCompute Playbook の $n^*(C)$ 処方がマルチターン RL にも転用可能かは未検証 - AgentRL の交差方策サンプリングは同一アーキテクチャのモデルとその過去バージョンに限定。異種アーキテクチャモデル間のクロスサンプリングが有効かは未検証(Source: [[@2025__arXiv__AgentRL - Training Language Model Agents with Reinforcement Learning]]) - AgentRL の非同期パイプラインの方策ラグは「許容可能」と実験で確認されたが、理論的な上界と性能劣化の関係は未分析。スケール増大に伴うラグ増大のリスク(Source: [[@2025__arXiv__AgentRL - Training Language Model Agents with Reinforcement Learning]]) - DeepSWE の Compact Filtering は 3 条件(コンテキスト長・タイムアウト・ステップ上限)の軌跡をマスクするが、閾値の最適設定やマスク率の訓練進行に伴う変化は未報告。不完全軌跡から部分的に学習する方法(Agent-R1 のステップレベル価値推定との統合)は探索の余地がある - DeepSWE の Pass@1(42.2%)が Devstral-Small(24B、46.6%)に劣る原因が「モデル容量」「データ品質」「テスト時スケーリングへの過度依存」のいずれに帰属するかは未分離 - サーベイが整理した「増幅器 vs 新知識」の 3 条件（高忠実報酬・多段構造・中間レジーム）を定量的に検証する実験設計が未整備。条件の充足度合いと創発的行動の出現確率の関係を系統的に調べる必要がある(Source: [[@2025__arXiv__The Landscape of Agentic Reinforcement Learning]] §6.4) - 時間的 credit assignment がマルチターンのツール統合推論における最大の未解決問題としてサーベイに位置づけられた。GiGPO のターンレベルアドバンテージ推定や SpaRL のステップレベル報酬分解はまだ初期段階であり、複雑な意思決定チェーンでのスケーラビリティは未検証(Source: [[@2025__arXiv__The Landscape of Agentic Reinforcement Learning]] §3.2, §3.7) - Agent-R1 は Qwen3-4B のみで評価。7B・70B 以上の大規模モデルでステップレベル MDP の有効性が維持されるか、接頭辞冗長計算コストがモデル規模とともにどう増大するかは定量的に不明(Source: [[@2025__arXiv__Agent-R1 - Training Agents with End-to-End RL]] §6) - ステップレベルの credit assignment の具体アルゴリズム実装は Agent-R1 で未提供。Turn-PPO・StepPO・AgentPRM との統合実験が今後の課題(Source: [[@2025__arXiv__Agent-R1 - Training Agents with End-to-End RL]] §5, §7.1) - Agent-R1 のコンテキスト管理実験は GSM8K + GRPO のみ。他タスク・他アルゴリズムでの「スライディングウィンドウ > 追記のみ > LLM 要約」の順序が保持されるかは未検証(Source: [[@2025__arXiv__Agent-R1 - Training Agents with End-to-End RL]] §4.4) - Kimi-Researcher のガンマ減衰報酬の $\gamma$ 値が非公開であり、ガンマ減衰係数と訓練安定性・最終性能の関係が定量的に不明。Agent-R1 のステップレベル MDP や GiGPO のターンレベルアドバンテージ推定との理論的・実験的比較が必要(Source: [[@2025__Moonshot AI__Kimi-Researcher - End-to-End RL Training for Emerging Agentic Capabilities]]) - Kimi-Researcher のターンレベル部分ロールアウトは更新済み重みで継続するため、軌跡前半と後半で方策が異なるオフポリシー的な性質を持つ。この方策不整合が訓練品質にどの程度影響するかは未分析(Source: [[@2025__Moonshot AI__Kimi-Researcher - End-to-End RL Training for Emerging Agentic Capabilities]]) - Kimi K2 の自己批判型ルーブリック報酬は、モデル自身が報酬を生成するため reward hacking のリスクが内在する。自己批判の品質が RL 訓練中に劣化する(あるいは共謀的に甘くなる)可能性を、外部検証なしにどう制御するか。RLVR との閉ループが品質保証として十分かは未検証(Source: [[@2025__arXiv__Kimi K2 - Open Agentic Intelligence]]) - 検索を使う RL エージェントでは、検索回数削減が効率改善なのか、必要証拠の欠落なのかを報酬から分離しにくい。検索タイミング方策に対して、証拠密度・忠実性・コストを同時に測る報酬設計が必要である。(Source: [[@2026__SIGIR__LLM-Oriented Information Retrieval - A Denoising-First Perspective]]) - ToRL のツール呼び出し上限 `C` の最適値がタスクドメインによってどう変化するか。数学では `C` を超える呼び出しが精度を下げるが、複雑なコーディングや検索では逆に `C` の大きい設定が有利になるかは未検証。(Source: [[Agentic-RL-Cameron-Wolfe-2026]]) - AgentGym-RL の ScalingInter-RL カリキュラムはフェーズ数 N=3・ターン数 8→12→15 が固定設計であり、タスクの性質に応じた動的カリキュラム構成の最適化アルゴリズムは未提案。難易度と環境リセット頻度を同時に変化させる場合の安定性も未評価。(Source: [[Agentic-RL-Cameron-Wolfe-2026]]) - AgentGym-RL で「ルールベースドメイン > 実世界環境」という RL 恩恵の差が観察されたが、この差が「環境の決定論性」「報酬の密度」「状態空間のサイズ」のどれに起因するかは因果的に未分離。実世界環境の RL 訓練改善に向けた具体的手法の開発が今後の課題。(Source: [[Agentic-RL-Cameron-Wolfe-2026]]) ## 関連 - ソース: [[@2025__arXiv__The Landscape of Agentic Reinforcement Learning]] / [[@2026__arXiv__IsoCompute Playbook - Optimally Scaling Sampling Compute for LLM Reinforcement Learning]] / [[@2025__arXiv__AgentRL - Training Language Model Agents with Reinforcement Learning]] / [[@2025__Together AI__DeepSWE - Training a Fully Open-sourced State-of-the-Art Coding Agent by Scaling RL]] / [[@2025__arXiv__Agent-R1 - Training Agents with End-to-End RL]] / [[@2025__Moonshot AI__Kimi-Researcher - End-to-End RL Training for Emerging Agentic Capabilities]] / [[@2025__arXiv__Kimi K2 - Open Agentic Intelligence]] / [[Agentic-RL-Cameron-Wolfe-2026]] - 概念: [[強化ファインチューニング]] / [[強化学習スケーリング]] / [[エージェント型時系列予測]] - エンティティ: [[Aviral Kumar]] / [[Carnegie Mellon University]] / [[AgentRL]] / [[AgentBench]] / [[DeepSWE]] / [[Together AI]] / [[Agentica]] / [[rLLM]] / [[R2E-Gym]] / [[Agent-R1]] / [[Mingyue Cheng]] / [[Kimi-Researcher]] / [[Moonshot]] / [[Moonshot AI]] / [[Kimi K2]] / [[MuonClip]] / [[Cameron-R-Wolfe|Cameron R. Wolfe]] ## 出典 - [[@2025__arXiv__The Landscape of Agentic Reinforcement Learning]]（§2 POMDP 形式化, §3 能力軸タクソノミー, §4 タスク軸タクソノミー, §6.4 増幅器 vs 新知識論争, 表 9 能力×タスク依存行列） - [[@2026__arXiv__IsoCompute Playbook - Optimally Scaling Sampling Compute for LLM Reinforcement Learning]]（§1 Introduction, §2 Problem Statement, §5.1 Scaling n Addresses Interference） - [[@2025__arXiv__AgentRL - Training Language Model Agents with Reinforcement Learning]]（§2 Problem, §3 Framework, §4 Experiments, 表 1-6） - [[@2025__Together AI__DeepSWE - Training a Fully Open-sourced State-of-the-Art Coding Agent by Scaling RL]]（GRPO++, Compact Filtering, 否定的結果, テスト時スケーリング, 創発的行動） - [[@2025__arXiv__Agent-R1 - Training Agents with End-to-End RL]]（§2.4 MDP, §3 Agent-R1, §4 Experiments, §5 Future, §6 Limitations） - [[@2026__Cursor__Introducing Composer 2.5]]（ターゲット RL・テキストフィードバック・合成データ 25 倍拡大・報酬ハッキング事例） - [[@2026__arXiv__The MiniMax-M2 Series - Mini Activations Unleashing Max Real-World Intelligence]]（§6 RL Algorithm/Infrastructure、§7.1 Interleaved Thinking、§7.2 Self-Evolution、§8 Evaluation） - [[@2025__Moonshot AI__Kimi-Researcher - End-to-End RL Training for Emerging Agentic Capabilities]]（REINFORCE、ガンマ減衰報酬、コンテキスト管理、ターンレベル部分ロールアウト、創発的行動） - [[@2025__arXiv__Kimi K2 - Open Agentic Intelligence]]（§5 エージェント型データ合成: MCP 3,000+ + 合成ツール 20,000+、ルーブリック報酬、§6 RLVR + 自己批判型ルーブリック報酬の統合 RL） - [[Agentic-RL-Cameron-Wolfe-2026]]（ToRL・AgentGym-RL・Agent-R1・AgentRL・AutoForge の 5 フレームワーク横断比較、ScalingInter-RL カリキュラム、RL-Zero セットアップ、RL オプティマイザ横断評価）