エージェントネイティブ RL - yuuk1's Digital Garden

# エージェントネイティブ RL ## 定義 LLM エージェントの長期ホライズン・マルチターン軌跡を前提として設計された RL 訓練インフラストラクチャおよびシステム設計の総称。従来の RL 訓練基盤がシングルターンまたは短ホライズンの応答を想定するのに対し、エージェントネイティブ RL はエージェントのコンテキスト管理・ツール呼び出し・サブエージェント委譲・記憶アクセスを環境のダイナミクスとして MDP に定式化し、方策(LLM)と環境境界をモデルの生成インターフェースに引く。この分離により、エージェントの内部構造に依存せず数秒から数時間に及ぶ軌跡のロールアウトを統一的に扱える。[[Forge]] が代表的な実装で、Agent Side・Middleware・Training/Inference Side の 3 モジュール分離によりスループット・安定性・柔軟性の三律背反を解決する。(Source: [[@2026__arXiv__The MiniMax-M2 Series - Mini Activations Unleashing Max Real-World Intelligence]] §6) ## 横断的知見 - **方策と環境の境界の引き方が設計空間を決定する**: Forge は方策/環境境界をモデルの生成インターフェースに引き、ツール実行・コンテキスト管理・記憶アクセスを全て環境側に配置する。Agent-R1 がステップレベル MDP として同じ境界を定式化し、追記のみ/スライディングウィンドウ/要約の 3 種のコンテキスト管理を環境パラメータとして比較した知見([[@2025__arXiv__Agent-R1 - Training Agents with End-to-End RL]])と合わせると、「方策はテキスト生成のみに責任を持ち、状態遷移関数の全ての複雑さは環境に吸収させる」という設計原理が複数の独立実装で収束しつつある。(Source: [[@2026__arXiv__The MiniMax-M2 Series - Mini Activations Unleashing Max Real-World Intelligence]], [[@2025__arXiv__Agent-R1 - Training Agents with End-to-End RL]]) - **ホワイトボックスとブラックボックスの二重パラダイムが産業的に必要**: Forge がホワイトボックス(コンテキスト管理を公開)とブラックボックス(API 経由の不透明な軌跡生成)の両パラダイムを Gateway で統一したのに対し、既存のエージェント RL フレームワーク(AgentRL・rLLM・Agent-R1)はいずれもホワイトボックス前提で設計されている。ブラックボックスエージェントのサポートは、サードパーティのエージェントスキャフォールドを RL ループに組み込む産業的要求から生まれた設計であり、研究基盤にはまだ反映されていない。(Source: [[@2026__arXiv__The MiniMax-M2 Series - Mini Activations Unleashing Max Real-World Intelligence]], [[@2025__arXiv__AgentRL - Training Language Model Agents with Reinforcement Learning]], [[@2025__arXiv__Agent-R1 - Training Agents with End-to-End RL]]) - **Windowed FIFO が分布一貫性とスループットのトレードオフを調整可能にした**: エージェント軌跡の完了時間が数秒〜数時間と極端にばらつく問題に対し、Forge は W=0.3N のウィンドウサイズで「ほぼ FIFO の分布特性を維持しつつクラスタのアイドル時間を大幅削減」する。DeepSWE([[@2025__Together AI__DeepSWE - Training a Fully Open-sourced State-of-the-Art Coding Agent by Scaling RL]])の Compact Filtering(不完全軌跡のマスク)が軌跡の品質管理に焦点を当てるのに対し、Windowed FIFO はスケジューリングレベルで分布の歪みを制御する相補的なアプローチである。(Source: [[@2026__arXiv__The MiniMax-M2 Series - Mini Activations Unleashing Max Real-World Intelligence]], [[@2025__Together AI__DeepSWE - Training a Fully Open-sourced State-of-the-Art Coding Agent by Scaling RL]]) ## 未解決の問い - Forge のブラックボックスサポートでは、エージェント内部のコンテキスト管理(積極的な書き換え・要約)が訓練分布と推論分布の乖離を引き起こす可能性があるが、その影響の定量評価は未報告。 - Windowed FIFO のウィンドウサイズ W の最適値は経験的に 0.3N とされるが、タスク難易度分布やクラスタ規模に応じた適応的なウィンドウサイズ調整は未検討。 - 接頭辞木マージの 40 倍高速化は共有接頭辞が長い場合に最大となるが、タスク多様性が高く接頭辞共有が少ない設定での実効的な高速化率は未報告。 - Forge は MiniMax 固有のインフラとして記述されており、オープンソース化や他の MoE モデル(DeepSeek-V3 等)への適用可能性は未明。 ## 関連 - ソース: [[@2026__arXiv__The MiniMax-M2 Series - Mini Activations Unleashing Max Real-World Intelligence]] / [[@2025__arXiv__Agent-R1 - Training Agents with End-to-End RL]] / [[@2025__arXiv__AgentRL - Training Language Model Agents with Reinforcement Learning]] / [[@2025__Together AI__DeepSWE - Training a Fully Open-sourced State-of-the-Art Coding Agent by Scaling RL]] - 概念: [[エージェント型強化学習]] / [[強化学習スケーリング]] / [[耐障害LLM訓練]] - エンティティ: [[Forge]] / [[MiniMax-M2]] / [[MiniMax]] / [[Agent-R1]] / [[AgentRL]] / [[DeepSWE]] ## 出典 - [[@2026__arXiv__The MiniMax-M2 Series - Mini Activations Unleashing Max Real-World Intelligence]]（§6 Reinforcement Learning 全体、§6.2 RL Infrastructure、§6.2.2 System Architecture、§6.2.3 White-Box/Black-Box、§6.2.4 Windowed FIFO、§6.2.5 Prefix Tree Merging）