# MuonClip [[Moonshot AI]] が [[Kimi K2]] の訓練用に開発したオプティマイザ。Muon(Newton-Schulz 正規化によるトークン効率向上)に重み減衰・一貫 RMS マッチング・QK-Clip を統合する。 **QK-Clip** は、各アテンションヘッドの最大ロジット $S_{\max}^h$ が閾値 $\tau$ を超えた場合にのみ、クエリ/キーの射影重みをヘッド単位でスケーリングする安定化手法。MLA(Multi-head Latent Attention)ではヘッド固有コンポーネント($q_C, k_C$ を $\sqrt{\gamma_h}$、$q_R$ を $\gamma_h$)のみをクリップし、共有回転キー $k_R$ はヘッド間影響を避けるため不変とする。順伝播/逆伝播の計算自体は変更せず、重みの成長を事後的に制御する。 9B/53B MoE のバニラ Muon 訓練で最大ロジットが 1000 超に達する不安定性を示したのに対し、MuonClip($\tau = 100$)による K2(1.04T)の訓練では 15.5 兆トークンを通じてロススパイクが一切発生しなかった。 ## 関連 - [[Kimi K2]] — 適用先モデル - [[Moonshot AI]] — 開発組織 - [[@2025__arXiv__Kimi K2 - Open Agentic Intelligence]]