MiniMax-M2 - yuuk1's Digital Garden

# MiniMax-M2 [[MiniMax]] が開発した Mixture-of-Experts(MoE)言語モデルファミリー。229.9B 総パラメータ・トークンあたり 9.8B 活性化の 62 層 decoder-only Transformer。256 個の細粒度エキスパートをシグモイドゲーティングで制御し、全層でフルマルチヘッドアテンション(GQA: 48 クエリヘッド/8 KV ヘッド)を採用する。192K トークンのネイティブコンテキストウィンドウと Multi-Token Prediction(MTP、K=3)モジュールを持ち、投機的復号のドラフト経路として推論を高速化する。 M2 → M2.5 → M2.7 とエージェントネイティブなポストトレーニングで漸進的に進化し、M2.7 は自律的に訓練ランのデバッグとスキャフォールドの修正を行う自己進化の初期的実装を達成。約 10B の活性化パラメータで Opus 4.6・GPT 5.4・Gemini 3.1 Pro と対等なフロンティア水準に達する。(Source: [[@2026__arXiv__The MiniMax-M2 Series - Mini Activations Unleashing Max Real-World Intelligence]])