# Forge [[MiniMax]] が [[MiniMax-M2]] シリーズの訓練のために構築した、スケーラブルなエージェントネイティブ RL システム。スループット・訓練安定性・エージェント柔軟性の三律背反(impossible triangle)を以下の設計で解決する: - **3 モジュール分離**: Agent Side(軌跡生成)・Middleware(Gateway Server + Data Pool)・Training/Inference Side(Rollout Engine + Train Engine)を疎結合にし、独立スケーリングを実現。 - **ホワイトボックス/ブラックボックスエージェント**: コンテキスト管理ロジックを公開するホワイトボックスと、不透明な軌跡生成器として扱うブラックボックスの両パラダイムを Gateway ベースの抽象化で統一。数百のエージェントスキャフォールドと数千のツール呼び出し形式で検証済み。 - **Windowed FIFO スケジューリング**: 生成キューにスライディングウィンドウ(W=0.3N)を設け、ウィンドウ内は貪欲(HoL ブロッキング緩和)、ウィンドウ境界は厳密 FIFO(分布一貫性保持)。 - **接頭辞木マージ**: 共有接頭辞を 1 回のみ前方計算し応答セグメントで分岐。数学的に独立サンプル訓練と等価で、最大 40 倍の訓練高速化。 - **推論高速化**: MTP ベース投機的復号の共訓練、Prefill/Decode 分離、グローバル L3 KV キャッシュプール。 CISPO(Clipped Importance Sampling Policy Optimization)を方策最適化に採用し、プロセス報酬・タスク完了時間報酬・Reward-to-Go の複合報酬で 192K トークン・数千行動の長期ホライズン軌跡のクレジットアサインメントを実現する。(Source: [[@2026__arXiv__The MiniMax-M2 Series - Mini Activations Unleashing Max Real-World Intelligence]])