Kimi K2 - yuuk1's Digital Garden

# Kimi K2 [[Moonshot AI]] が開発した 1.04 兆パラメータ(活性化 32B)の Mixture-of-Experts(MoE)大規模言語モデル。61 層 Transformer、MLA(Multi-head Latent Attention)、384 エキスパート(活性化 8 + 共有 1、スパーシティ 48)、64 アテンションヘッドで構成される。DeepSeek-V3 と比較してエキスパート数 50% 増・アテンションヘッド数 50% 減の設計選択を取り、長コンテキスト推論効率を重視する。 [[MuonClip]] オプティマイザにより 15.5 兆トークンの事前学習をロススパイクなしで完了。事後学習では MCP ツール + 合成ツール 23,000 超によるエージェント型データ合成と、RLVR + 自己批判型ルーブリック報酬の統合 RL を経る。 SWE-bench Verified 65.8%・τ2-Bench 66.1 でオープンソース非思考モデル SOTA を達成。LMSYS Arena(2025-07-17)でオープンソース 1 位・全体 5 位。ベースモデル・インストラクションモデルの双方をオープンウェイトで公開(`moonshotai/Kimi-K2-Instruct`)。 H800 GPU クラスタ上で 16-way PP + 16-way EP + ZeRO-1 DP の並列化戦略で訓練。 ## 関連 - [[Moonshot AI]] — 開発企業 - [[MuonClip]] — 事前学習オプティマイザ - [[Mixture-of-Experts]] — アーキテクチャの基盤 - [[@2025__arXiv__Kimi K2 - Open Agentic Intelligence]] — テクニカルレポート