CISPO - yuuk1's Digital Garden

# CISPO Clipped IS-weight Policy Optimization。[[MiniMax]] が [[MiniMax-M1]] の RL 訓練のために提案した方策最適化アルゴリズム。PPO/[[GRPO]] がトークンの更新自体をクリッピングするのに対し、CISPO は重要度サンプリング(IS)重みをクリッピングする。これにより、省察トークン("However"、"Wait" 等)のように確率が低いが推論パスの分岐点として重要なトークンが、オフポリシー勾配更新から排除される問題を回避し、全トークンからの勾配寄与を保持しつつ分散を削減する。 Qwen2.5-32B での制御実験で、同一ステップ数での性能が GRPO・DAPO を大幅に上回り、DAPO の 50% のステップ数で同等性能を達成(2 倍の訓練効率)。トークンレベルマスクを導入した統一定式化で PPO の信頼領域クリッピングと CISPO を共通フレームワーク下に配置可能。 ## 出典 - [[@2025__arXiv__MiniMax-M1 - Scaling Test-Time Compute Efficiently with Lightning Attention]]（§3.1 Efficient RL Scaling with CISPO）