非同期エージェントRL - yuuk1's Digital Garden

# 非同期エージェントRL ## 定義非同期エージェント RL(Asynchronous Agent RL)は、LLM エージェントのロールアウト(環境との対話による軌跡生成)と方策更新(訓練)を時間的に切り離して並行実行する強化学習インフラの総称である。同期 RL では各 step ごとに全ロールアウトが完了するのを待つため、長期エージェント軌跡(ツール呼び出し・コード実行・ブラウザ操作で数十〜数百ステップに及ぶ)で GPU 利用率が著しく低下する。非同期化は、ロールアウト生成中も方策更新を継続することで GPU を遊ばせない設計である。 (Source: [[@2026__arXiv__GLM-5 - From Vibe Coding to Agentic Engineering]] §slime、[[@2026__arXiv__The MiniMax-M2 Series - Mini Activations Unleashing Max Real-World Intelligence]] §Forge) 代表的実装: - **[[slime]] フレームワーク** ([[@2026__arXiv__GLM-5 - From Vibe Coding to Agentic Engineering]]): 生成と訓練のデカップリング、長期エージェントロールアウトの GPU 利用率を最大化 - **[[Forge]] システム** ([[@2026__arXiv__The MiniMax-M2 Series - Mini Activations Unleashing Max Real-World Intelligence]]): Windowed FIFO + 接頭辞木マージで最大 40× 高速化、ホワイトボックス/ブラックボックスエージェントを統一 ## 横断的知見 - **slime と Forge が独立に同じ問題意識へ到達**: GLM-5 (Zhipu AI) の slime と MiniMax-M2 (MiniMax) の Forge は、長期エージェントロールアウトの GPU 利用率向上を別々の組織が独立に追求した結果として、ほぼ同時期(2026 上半期)に登場した。中核アプローチ(生成と訓練の分離・部分ロールアウトの再利用)は共通している (Source: [[@2026__arXiv__GLM-5 - From Vibe Coding to Agentic Engineering]] / [[@2026__arXiv__The MiniMax-M2 Series - Mini Activations Unleashing Max Real-World Intelligence]]) - **エージェント RL インフラが独立した研究分野として確立しつつある**: 一世代前の RL(例: Kimi K1.5 の Mooncake + vLLM)も部分ロールアウト等の最適化を持っていたが、長期エージェント軌跡を一級市民として扱う設計は slime / Forge で初めて体系化された (Source: [[@2025__arXiv__Kimi K1.5 - Scaling Reinforcement Learning with LLMs]] vs [[@2026__arXiv__GLM-5 - From Vibe Coding to Agentic Engineering]] / [[@2026__arXiv__The MiniMax-M2 Series - Mini Activations Unleashing Max Real-World Intelligence]]) ## 未解決の問い - 非同期化に伴うオフポリシー化(古い方策で生成された軌跡を新しい方策の更新に使う)の影響は[[CISPO]] 等の IS 重みクリッピングで緩和されるが、長期軌跡(数百ステップ)でも有効か未検証 - slime と Forge の設計上の違い(Windowed FIFO / 接頭辞木マージの有無、ホワイトボックス/ブラックボックス統合の有無)が訓練効率・最終性能にどう効くかの直接比較はない - 産業実装で「真の非同期度」がどこまで実現されているか(訓練と生成のラグ・古い方策の利用率)の定量報告は限定的 ## 関連 - ソース: [[@2026__arXiv__GLM-5 - From Vibe Coding to Agentic Engineering]] / [[@2026__arXiv__The MiniMax-M2 Series - Mini Activations Unleashing Max Real-World Intelligence]] - 概念: [[エージェント型強化学習]] / [[エージェントネイティブ RL]] / [[CISPO]] / [[LLM分散学習]] - エンティティ: [[slime]] / [[Forge]] / [[Zhipu AI]] / [[MiniMax]] ## 出典 - [[@2026__arXiv__GLM-5 - From Vibe Coding to Agentic Engineering]](§slime フレームワーク) - [[@2026__arXiv__The MiniMax-M2 Series - Mini Activations Unleashing Max Real-World Intelligence]](§Forge システム)