@2025__arXiv__Kimi K2 - Open Agentic Intelligence

# Kimi K2: Open Agentic Intelligence ## 論文情報 - **著者**: Kimi Team ([[Moonshot AI]])、100 名超の共著 - **会議/公開**: arXiv:2507.20534 (v1: 2025-07-28, v2: 2026-02-03) - **分野**: cs.LG / cs.AI / cs.CL ## 概要(アブストラクト日本語訳) Kimi K2 は、活性化パラメータ 320 億・総パラメータ 1.04 兆の Mixture-of-Experts(MoE)大規模言語モデルである。Muon オプティマイザに QK-Clip 技法を統合した MuonClip を提案し、訓練不安定性を解消しつつ Muon の高いトークン効率を維持する。MuonClip に基づき K2 は 15.5 兆トークンの事前学習をロススパイクなしで完了した。事後学習では、大規模エージェント型データ合成パイプラインと、検証可能報酬(RLVR)および自己批判型ルーブリック報酬を組み合わせた統合強化学習(RL)段を経る。K2 はオープンソース非思考モデルで SOTA を達成し、とりわけエージェント能力に強みを持つ。 ## 問題設定エージェント型知能(Agentic Intelligence)—モデルが自律的に知覚・計画・推論・行動する能力—は次世代基盤モデルの核心要件である。しかし事前学習では高品質データの枯渇に伴うトークン効率の向上が、事後学習ではマルチステップ推論・長期計画・ツール使用などエージェント型軌跡データの大規模合成が、それぞれ根本課題となる。 ## 提案手法 ### MuonClip オプティマイザ Muon オプティマイザ(Newton-Schulz 正規化によるトークン効率向上)をスケーリングすると、アテンションロジットが爆発する不安定性が生じる。既存の Logit Soft-Cap や QK-Norm は MLA(Multi-head Latent Attention)には適用不可である。提案する **QK-Clip** は、各ヘッドの最大ロジット $S_{\max}^h$ が閾値 $\tau$ を超えた場合にのみ、クエリ/キーの射影重みをヘッド単位でスケーリングする(MLA では $q_C, k_C$ を $\sqrt{\gamma_h}$、$q_R$ を $\gamma_h$ で縮小し、共有回転キー $k_R$ は不変)。順伝播/逆伝播自体は変更せず、重みの成長を事後的に制御する。MuonClip は Muon + 重み減衰 + 一貫 RMS マッチング + QK-Clip を単一オプティマイザに統合したものである。 ### モデルアーキテクチャ DeepSeek-V3 と同様に MLA を用い、隠れ次元 7168・MoE エキスパート隠れ次元 2048 の 61 層 Transformer。主な差異は以下のとおり: - **エキスパート数**: 384(DeepSeek-V3 の 256 から 50% 増)、活性化 8 + 共有 1。スパーシティ 48。 - **アテンションヘッド数**: 64(DeepSeek-V3 の 128 から半減)。128K コンテキスト長での推論 FLOPS を 83% 削減。 - **密層**: 1 層のみ(DeepSeek-V3 は 3 層)。 - エキスパートグルーピングは不採用。スパーシティスケーリング則の分析により、固定活性化パラメータでスパーシティ 48 はスパーシティ 8 比で 1.69× の FLOPS 節約を達成する。 ### 事前学習データとトークンユーティリティ高品質トークンの枯渇に対処するため、合成データ生成による**リフレージング(rephrasing)**を導入する: - **知識ドメイン**: スタイル/視点多様プロンプト + チャンク単位自己回帰生成 + 忠実性検証。SimpleQA で生データ 10 エポック(23.76%)→リフレージング 10 回 1 エポック(28.94%)。 - **数学ドメイン**: SwallowMath に倣い「学習ノート」スタイルへ書き換え + 多言語翻訳。 - 全体: Web テキスト・コード・数学・知識の 4 ドメイン、15.5 兆トークン。 ### 訓練インフラストラクチャ - H800 GPU クラスタ(ノード内 NVLink/NVSwitch、ノード間 8×400 Gbps RoCE)。 - 16-way PP(仮想ステージ)+ 16-way EP + ZeRO-1 DP。32 ノードの倍数で柔軟にスケール。 - EP 通信はインターリーブド 1F1B で計算とオーバーラップ(DualPipe は 1 兆パラメータではメモリコスト過大で不採用)。 - アクティベーション削減: 選択的再計算 + FP8(E4M3)ストレージ + CPU オフロード。 ### 事後学習 #### 大規模エージェント型データ合成 3 段階のパイプライン: 1. **ツール仕様生成**: GitHub の 3,000 超 MCP(Model Context Protocol)ツール + ドメイン進化で 20,000 超合成ツール。 2. **エージェント/タスク生成**: ツールセットからシステムプロンプトを合成し、ルーブリック付きタスクを生成。 3. **軌跡生成**: ユーザーシミュレーション + ツールシミュレータ(ワールドモデル相当) + LLM ジャッジによる品質フィルタリング。 - 実行サンドボックスとのハイブリッドにより模擬の忠実度限界を補完する。 #### 強化学習 - **検証可能報酬ジム**: 数学/STEM/論理(多様性 + 適度な難度)、複雑指示追従(ハイブリッドルール検証 + ハックチェック)、忠実性(FACTS Grounding ベースの文レベルジャッジ)、コード/ソフトウェア工学(GitHub PR + 10,000 超並行サンドボックス)、安全性(攻撃モデル + ジャッジモデルのレッドチーミング)。 - **自己批判型ルーブリック報酬(Self-Critique Rubric Reward)**: コアルーブリック(AI アシスタントの基本価値) + 処方的ルーブリック(報酬ハッキング防止) + 人間注釈ルーブリック。クリティックは RLVR のオンポリシーロールアウトで継続更新され、検証可能タスクから主観的タスクへの信号転移を実現する。 - **RL アルゴリズム**: K1.5 の方策最適化 + 二乗ペナルティ正則化を基盤に、バジェット制御(タスク種別ごとの最大トークン予算)、PTX 損失(高品質データの補助損失)、温度減衰(探索→搾取)を追加。 ### RL インフラストラクチャ - 訓練/推論エンジンの同居アーキテクチャ(K1.5 踏襲)。 - 分散チェックポイントエンジンによるパラメータ更新: 全パラメータをブロードキャストし、推論エンジンが必要シャードのみ取得。1 兆パラメータで 30 秒未満。OSS 化(`MoonshotAI/checkpoint-engine`)。 - エージェント型ロールアウト: 重い環境は専用サービスに分離、大量並行ロールアウトで GPU 利用率を最大化、部分ロールアウトでロングテール軌跡を中断/再開。 **Figure 3: ワークフロー** ![[_attachments/arxiv-2507.20534/fig3-workflow.png]] (Figure 3. Per-step training loss curve of Kimi K2, without smoothing or sub-sampling. It shows no spikes throughout the entire tra に関する処理フローを示す。) **Figure 4: ワークフロー** ![[_attachments/arxiv-2507.20534/fig4-workflow.png]] (Figure 4. Auto-regressive chunk-wise rephrasing pipeline for long input excerpts. The input is split into smaller chunks に関する処理フローを示す。) ## 新規性 1. **MuonClip**: Muon のトークン効率と MLA の互換性を両立する初のアテンションロジット安定化手法。ヘッド単位で介入し訓練ダイナミクスへの影響を最小化。 2. **スパーシティスケーリング則**: Muon 下の MoE で固定 FLOPS のスパーシティ効果を定量化し、スパーシティ 48 を設計選択の根拠とした。 3. **大規模エージェント型データ合成**: MCP ツール + 合成ツール 23,000 超、シミュレーション + 実行サンドボックスのハイブリッド、ルーブリック付きマルチターン軌跡生成を産業規模で実現。 4. **自己批判型ルーブリック報酬 + RLVR 閉ループ**: 検証可能タスクの信号で批評モデルを継続更新し、非検証タスクへの汎化を可能にした初のフレームワーク。 ## 実験設定 - **ベースライン**: オープンソース(DeepSeek-V3-0324, Qwen3-235B-A22B)、プロプライエタリ(Claude Sonnet 4, Claude Opus 4, GPT-4.1, Gemini 2.5 Flash)。すべて非思考モード。 - **主要ベンチマーク**: SWE-bench Verified / SWE-bench Multilingual / τ2-Bench / ACEBench / LiveCodeBench v6 / OJBench / AIME 2025 / GPQA-Diamond / MMLU / IFEval / SimpleQA / LMSYS Arena 等。 **Table 1: 実験設定** ![[_attachments/arxiv-2507.20534/table1-setup.png]] (Table 1. SimpleQA Accuracy under three rephrasing-epoch configurations に関する実験設定を示す。) ## 実験結果 | ベンチマーク | Kimi K2 | 最良オープン比較 | 最良プロプライエタリ | |---|---|---|---| | SWE-bench Verified(エージェント型) | **65.8%** | 38.8(DSV3) | 72.5(Opus 4) | | SWE-bench Multilingual | **47.3%** | 25.8(DSV3) | 51.0(Sonnet 4) | | τ2-Bench(マイクロ平均) | **66.1** | 48.8(DSV3) | 67.6(Opus 4) | | ACEBench(英語) | **76.5** | 72.7(DSV3) | 80.1(GPT-4.1) | | LiveCodeBench v6 | **53.7** | 46.9(DSV3) | 51.0(Sonnet 4) | | AIME 2025(Avg@64) | **49.5** | 46.7(DSV3) | 46.6(Flash) | | GPQA-Diamond(Avg@8) | **75.1** | 68.4(DSV3) | 74.9(Opus 4) | | IFEval | **89.8** | 83.2(Qwen3) | 88.0(GPT-4.1) | | LMSYS Arena(2025-07-17) | **#1 OSS / #5 全体** | — | — | - 事前学習(ベースモデル)でも 12/12 英語ベンチ中 10 で SOTA、全中国語ベンチで SOTA。 - 安全性評価: Promptfoo レッドチーミングで Crescendo/Iterative Jailbreak 以外は高通過率。Criminal の複雑攻撃では脆弱性が残る(57.57%)。 **Figure 1: 評価結果** ![[_attachments/arxiv-2507.20534/fig1-results.png]] (Figure 1. 評価結果を示す。) **Table 2: 比較** ![[_attachments/arxiv-2507.20534/table2-comparison.png]] (Table 2. Kimi K2 and DeepSeek-V3 の比較を示す。) ## 考察 Kimi K2 は、トークン効率(MuonClip)・アーキテクチャスケーリング(超疎 MoE)・エージェント型能力(大規模合成 + RL)の 3 軸でオープンソース LLM のフロンティアを押し広げた。特に以下の設計選択が注目に値する: - **アテンションヘッド半減**: 推論 FLOPS を大幅に削減しエージェント応用に不可欠な長コンテキスト効率を確保。検証損失への影響は 0.5〜1.2% にとどまる。 - **DualPipe 不採用**: 1 兆パラメータでは DualPipe のメモリオーバーヘッドが過大。代わりにインターリーブド 1F1B + 重み勾配分離でパイプライン通信をオーバーラップ。 - **自己批判型 RL**: RLVR の検証信号で批評モデルを接地し続ける閉ループにより、創作・要約等の主観的タスクにもスケーラブルな RL を適用。 ## 強み - 15.5 兆トークンの事前学習をロススパイクなしで完了したのは MuonClip の安定化効果の実証。 - MCP ツール + 合成ツール 23,000 超のリポジトリと 10,000 超並行サンドボックスは産業規模のエージェント型データ合成の具体的事例。 - チェックポイントエンジン OSS 化を含む RL インフラの詳細な記述は再現性に資する。 - ベースモデルとインストラクションモデルの両方をオープンウェイトで公開。 ## 弱点 - 100 名超の共著で個別貢献は不明瞭。 - 訓練に使用した GPU 数・総計算量(FLOPS)が明示されていない。 - 安全性評価で Criminal カテゴリの Iterative Jailbreak(57.57%)・Crescendo(56.06%)の通過率が低く、複雑攻撃への耐性に課題。 - ツールの忠実度を「ワールドモデル相当のシミュレータ」に依存しており、シミュレーションと実環境の乖離(sim-to-real gap)の定量評価がない。 - 推論時にツール定義が不明確な場合やハード推論タスクで過剰トークン生成が発生する制限を自認。