# MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention ## 概要 [[MiniMax]] が公開した、世界初のオープンウェイト大規模ハイブリッドアテンション推論モデル。ライトニングアテンション(線形アテンションの I/O 効率実装)を 7 ブロックに 1 つのソフトマックスアテンションブロックと交互に配置するハイブリッド設計により、推論時のテスト時計算を近似線形にスケールさせる。MoE アーキテクチャ(総パラメータ 456B、トークン当たりアクティベーション 45.9B、エキスパート 32)と組み合わせ、100 万トークンのネイティブコンテキスト長を実現する。 ## アーキテクチャ - **ベースモデル**: [[MiniMax-Text-01]](MiniMax et al., 2025)を 7.5T トークンで継続事前学習 - **ハイブリッドアテンション**: TransNormer ブロック(ライトニングアテンション)7 つ + 通常の Transformer ブロック(ソフトマックスアテンション)1 つ - ライトニングアテンションは Qin+ 2024b の I/O アウェアな線形アテンション実装 - 理論 FLOPS は生成長に対して近似線形にスケール(64K で DeepSeek R1 の 50% 未満、100K で 25%) - **MoE**: 456B 総パラメータ、45.9B アクティベーション/トークン、32 エキスパート - **コンテキスト長**: ネイティブ 100 万トークン(DeepSeek R1 の 8 倍) - **長コンテキスト拡張**: 32K → 1M の 4 段階でスムーズに拡張(勾配爆発を回避) ## CISPO アルゴリズム PPO/GRPO のトークンレベルクリッピングに対する代替として提案された RL アルゴリズム。 - **動機**: GRPO のクリッピング操作が、省察トークン("However"、"Recheck"、"Wait" 等)のように基底モデルでの確率が低いが推論パスの「分岐点」として重要なトークンを、最初のオンポリシー更新後のオフポリシー勾配更新から排除してしまう問題を特定。これは長い思考連鎖(CoT)の出現を阻害する - **核心**: トークンの更新をクリッピングする代わりに、重要度サンプリング(IS)重みをクリッピングする(式 5: $\hat{r}_{i,t}(\theta) = \text{clip}(r_{i,t}(\theta), 1 - \epsilon^{IS}_{low}, 1 + \epsilon^{IS}_{high})$)。これにより全トークンからの勾配寄与を維持しつつ分散を削減 - **統一定式化**: トークンレベルマスク $M_{i,t}$ を導入した統一損失(式 6-7)で PPO の信頼領域クリッピングと CISPO を共通フレームワーク下に配置可能 - **実証**: Qwen2.5-32B ベースで AIME 2024 を評価。同一ステップ数で GRPO・DAPO を大幅に上回り、DAPO の 50% のステップ数で同等性能(2 倍の訓練効率) - **DAPO との差異**: DAPO は上限クリッピング境界を広げることで同種の問題に対処するが、16 ラウンドのオフポリシー更新設定では効果が薄い ## RL 訓練 - **データ構成**: 検証可能タスク(数学 ~50K、論理推論 ~53K via [[SynLogic]]、競技プログラミング ~30K、ソフトウェアエンジニアリング 数千)+ 非検証タスク(STEM、QA、創作 ~25K、生成的報酬モデルで評価) - **ソフトウェアエンジニアリング RL**: SWE-bench 由来の実問題をコンテナ化サンドボックスで実行し、テストケースの合否を報酬信号とする - **カリキュラム**: 検証可能タスク(ルールベース報酬)から開始し、徐々に非検証タスクを混入 - **GenRM バイアス対策**: 長い CoT に対する生成的報酬モデル(GenRM)の長さバイアスを、オンライン監視 + 即時再校正で対処。報酬シェーピング・値クリッピング・正規化を併用 - **長思考拡張**: 40K → 80K のトークンを 40K → 48K → 56K → 64K → 72K → 80K の段階的ウィンドウ拡張で実現。パープレキシティ収束と出力長の 99 パーセンタイルを遷移指標とする ## ハイブリッドアーキテクチャ固有の RL 課題と解決 - **計算精度不一致**: 訓練モードと推論モードでトークン確率に乖離が生じ(ピアソン相関 0.987)、報酬成長が停止。LM 出力ヘッドの精度を FP32 に引き上げることで相関を 0.997 に改善し、訓練全体を通じて安定化 - **オプティマイザのハイパーパラメータ感度**: 勾配の大きさが 1e-18 から 1e-5 に及び、デフォルト設定(β₂=0.999, eps=1e-8)では非収束。β₁=0.9、β₂=0.95、eps=1e-15 に調整 - **反復検知による早期打ち切り**: 確率 0.99 超のトークンが 3,000 連続した場合に生成を停止し、病理的な長い反復応答を回避 ## 主要ベンチマーク結果(MiniMax-M1-80k) | ベンチマーク | スコア | 位置づけ | |---|---|---| | AIME 2024 | 86.0% | オープンウェイト 2 位(DeepSeek-R1-0528 91.4% に次ぐ) | | SWE-bench Verified | 56.0% | オープンウェイト 2 位(DeepSeek-R1-0528 57.6% に次ぐ) | | TAU-bench(airline) | 62.0% | Gemini 2.5 Pro(50.0%)を上回る | | OpenAI-MRCR(128k) | 73.4% | OpenAI o3(56.5%)・Claude 4 Opus(48.9%)を上回る | | LongBench-v2 | 61.5% | 全モデル中最上位帯 | | LiveCodeBench | 65.0% | DeepSeek-R1-0528(73.1%)に劣る | | GPQA Diamond | 70.0% | DeepSeek-R1-0528(81.0%)に劣る | ## 訓練コスト - RL 全体: 512 [[H800]] GPU × 3 週間 = レンタル費用約 53.4 万ドル - 継続事前学習 7.5T トークン + SFT + RL の 3 段階パイプライン ## 意義と位置づけ - **テスト時計算スケーリングの効率的な実現**: ソフトマックスアテンションの二次計算量が推論モデル(LRM)の思考長延伸のボトルネックであるという問題に、ハイブリッド線形アテンションで正面から取り組んだ初のオープンウェイトモデル - **CISPO による RL 効率改善**: 「省察トークンがクリッピングで排除される」という具体的な障害モードの特定から出発し、IS 重みクリッピングという原理的な解決を導出。GRPO/DAPO/PPO との統一定式化も提示 - **ハイブリッドアーキテクチャの RL 実践知**: 計算精度不一致・オプティマイザ感度・反復崩壊といった、ライトニングアテンション固有の RL 課題と具体的解法を開示。Hunyuan-T1 が非公開であるのに対し、M1 はこれらの知見を公開している - **ソフトウェアエンジニアリング RL**: サンドボックス環境での実行ベース報酬による SE 訓練の効果を実証(SWE-bench Verified 56.0%) ## 出典 - MiniMax. MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention. arXiv:2506.13585 [cs.CL], 2025-06-16.