# Kimi K1.5: Scaling Reinforcement Learning with LLMs
## 論文情報
- **著者**: Kimi Team ([[Moonshot AI]])、Zhilin Yang ほか約 80 名
- **発表**: arXiv:2501.12599v4 [cs.AI], 2025-01-22(最終更新 2025-06-03)
- **カテゴリ**: cs.AI, cs.LG
## 概要(アブストラクト訳)
次トークン予測による言語モデル事前学習は計算のスケーリングに有効だが、利用可能な訓練データ量に制約される。強化学習(RL)のスケーリングは、LLM が報酬に基づく探索で訓練データを自ら生成できるため、知能の継続的改善に新たな軸を開く。本報告では、RL で訓練されたマルチモーダル LLM である Kimi k1.5 の訓練手法を述べる。長コンテキストスケーリングと改良された方策最適化手法が本手法の鍵であり、MCTS・価値関数・プロセス報酬モデルといった複雑な手法に頼らないシンプルで効果的な RL フレームワークを確立する。AIME 77.5、MATH 500 96.2、Codeforces 94 パーセンタイル、MathVista 74.9 を達成し、OpenAI o1 に匹敵する。さらに、long2short 手法により短 CoT モデルでも AIME 60.8、MATH500 94.6、LiveCodeBench 47.3 を達成し、GPT-4o・Claude 3.5 Sonnet を最大 +550% 上回る。
## 問題設定
事前学習のスケーリング則(Kaplan+ 2020、Hoffmann+ 2022)は、パラメータ数とデータ量の比例的な拡大で性能が向上することを示したが、高品質な訓練データの枯渇が律速となる。本論文は RL を計算スケーリングの新軸と位置づけ、LLM が自己の探索を通じて訓練データを生成し、データ量の壁を突破する可能性を追求する。先行研究では RL による競争力ある結果は公表されていなかった。
## 提案手法
### 長コンテキスト RL スケーリング
コンテキストウィンドウを 128k まで拡大し、RL 訓練中のコンテキスト長に応じた性能の継続的改善を確認した。核心技術は**パーシャルロールアウト**(partial rollouts)——長い軌道を固定トークン予算で分割し、前回の軌道の大部分を再利用して新しいサンプリングを行うことで、長い CoT の計算コストを削減する。非同期ロールアウトワーカーにより、長い軌道が一部のワーカーを占有しても他のワーカーが短い軌道を処理でき、計算資源の遊休を防ぐ。
### 改良された方策最適化
オンラインミラー降下(online mirror descent)の変種を採用する。各イテレーション i で現在のモデル πθi を参照方策とし、相対エントロピー正則化付き方策最適化問題を解く。閉形式解に基づく代理損失から勾配を導出し、k 個のサンプルの平均報酬をベースラインとする。PPO 等で用いる価値ネットワークを排除する設計を採る。長い CoT において、中間ステップの誤りを含む探索も最終的に正解に到達すれば有益であり、価値関数による古典的なクレジットアサインメントは探索を阻害しうるという仮説に基づく。
### 長さペナルティ
RL 訓練中にモデルの応答長が急増する「考えすぎ」(overthinking)現象に対処するため、長さに基づく報酬を導入する。正解の中では短い応答を促進し長い応答にペナルティを課し、不正解の長い応答には明示的にペナルティを与える。ウォームアップにより初期段階での訓練減速を緩和する。
### サンプリング戦略
- **カリキュラムサンプリング**: 易しい問題から始め徐々に難しい問題へ移行する。初期の限られた計算予算を難問に投じても正解サンプルが得にくいため、段階的な移行が訓練効率を高める。
- **優先度サンプリング**: 各問題の成功率を追跡し、成功率の低い問題を高確率でサンプリングする。
### 報酬モデリング
- **Classic RM**: 約 80 万件のデータで訓練した値ヘッドベースの報酬モデル(精度約 84.4%)。
- **CoT RM**: 約 80 万件の CoT ラベル付きデータで訓練。ステップバイステップの推論過程を明示的に生成してから正誤判定を JSON で出力する(精度 98.5%)。RL 訓練にはこの CoT RM を採用する。
### long2short: 長 CoT → 短 CoT 蒸留
長 CoT モデルの思考を短 CoT モデルに転移する 4 手法を提案する:
1. **モデルマージ**: 長 CoT モデルと短 CoT モデルの重みを平均して新しいモデルを得る(訓練不要)。
2. **最短リジェクションサンプリング**: 同一問題を n 回サンプリングし、最短の正解応答で SFT を行う。
3. **DPO**: 最短正解を正例、長い応答(不正解 + 1.5 倍以上長い正解)を負例として選好学習する。
4. **long2short RL**: 長さペナルティを強化し最大ロールアウト長を短くして再 RL する。
### マルチモーダル
テキストとビジョンを共同訓練し、実世界画像推論・合成視覚推論・テキストレンダリングデータの 3 カテゴリのビジョン RL データを使用する。
## 新規性
1. **コンテキスト長を RL のスケーリング次元として同定**: 応答長と性能の間に強い正の相関が存在し、コンテキスト長の拡大が RL の性能を継続的に改善することを実証した初の体系的報告。
2. **MCTS・価値関数・PRM 不要のシンプルな RL フレームワーク**: 長コンテキストスケーリングにより、モデルが暗黙的な探索を自己回帰的に学習でき、明示的な探索木の構築が不要になることを示した。
3. **パーシャルロールアウト**: 長い軌道を反復にまたがって再利用する手法で、長コンテキスト RL の計算効率を大幅に改善する。
4. **long2short 手法群**: 長 CoT のテスト時計算を短 CoT に蒸留する体系的アプローチ。long2short RL が DPO・モデルマージよりトークン効率が高い。
## RL インフラストラクチャ
- **ハイブリッドデプロイメント**: Kubernetes Sidecar コンテナで [[Megatron-LM]] と [[vLLM]] を同一 Pod に配置し、全 GPU を訓練と推論で時分割共有する。切り替えは訓練→推論が 1 分未満、推論→訓練が約 10 秒。
- **チェックポイントエンジン**: vLLM のライフサイクル管理と [[Mooncake]] 経由の RDMA 重み転送を担い、etcd でグローバル状態を同期する。
- **コードサンドボックス**: crun(Docker 比 3 倍速のコンテナ起動)・cgroup 再利用・tmpfs オーバーレイで最適化されたコード実行環境を [[Kubernetes]] 上に展開する。
## 実験設定
- **ベンチマーク**: テキスト(MMLU, IF-Eval, CLUEWSC, C-EVAL)、推論(AIME 2024, MATH-500, Codeforces, LiveCodeBench, HumanEval-Mul)、ビジョン(MMMU, MathVista, MathVision)
- **長 CoT 比較対象**: OpenAI o1, OpenAI o1-mini, QwQ-32B, QVQ-72B
- **短 CoT 比較対象**: GPT-4o, Claude 3.5 Sonnet, DeepSeek V3, Qwen2.5 72B, LLaMA-3.1 405B
## 実験結果
- **長 CoT**: AIME 77.5(o1 74.4 を上回る)、MATH-500 96.2(o1 94.8 を上回る)、Codeforces 94 パーセンタイル(o1 と同等)、MathVista 74.9(o1 71.0 を上回る)。LiveCodeBench 62.5 は o1 の 67.2 に及ばない。
- **短 CoT**: AIME 60.8(GPT-4o 9.3 の約 6.5 倍)、MATH-500 94.6(GPT-4o 74.6 を大幅に上回る)、LiveCodeBench 47.3(GPT-4o 33.4 を上回る)。
- **長コンテキストスケーリング**: 応答長と性能に正の線形相関(傾き 2.46e-05〜4.24e-05)。難しいベンチマークほど応答長が急峻に増加する。
- **モデルサイズ vs コンテキスト長**: 小さいモデルでも長い CoT で大きいモデルに匹敵する性能に達するが、大きいモデルの方がトークン効率は高い。テスト時計算に予算がある場合は小モデル + 長コンテキストが代替策となる。
- **ReST(負の勾配なし) vs 本手法**: 負の勾配を適用する本手法が ReST に対し顕著に優れたサンプル効率を示す。
- **カリキュラムサンプリング**: 均一サンプリングに対し、易→難の段階的移行が明確な性能向上を示す。
- **long2short**: long2short RL が DPO・モデルマージ・最短リジェクションサンプリングのいずれよりもトークン効率が高い。
## 考察
- コンテキスト長が RL の新しいスケーリング次元であるという知見は、事前学習のスケーリング則(データ量・パラメータ数)に RL 固有の第三の軸を加える。
- 価値ネットワークの排除は、長い CoT の文脈では古典的なクレジットアサインメントの仮定(中間ステップの誤りは常にペナルティ)が成立しないという洞察に基づく。試行錯誤の経験そのものが長期的な計画能力の発達に寄与する。
- long2short 手法は、テスト時計算とトークン効率のトレードオフを柔軟に制御する手段を提供する。反復的な long2short RL + long-CoT RL でトークン効率をさらに向上できる可能性がある。
- パーシャルロールアウトは長コンテキスト RL の計算ボトルネックを解消するが、旧イテレーションの軌道再利用がオフポリシー性を導入する点にトレードオフがある。
## 強み
- MCTS・価値関数・PRM を排除したシンプルな RL フレームワークで o1 に匹敵する性能を達成した実践的インパクト。
- パーシャルロールアウトとハイブリッドデプロイメントによるインフラ最適化の具体的な実装と性能数値の開示。
- long2short 手法群の体系的な比較と、トークン効率の定量的評価。
- マルチモーダル(テキスト + ビジョン)を統一 RL フレームワークで扱う設計。
## 弱点
- モデルサイズ・アーキテクチャの詳細(パラメータ数、層数、隠れ次元)が非公開。再現性が制限される。
- 「Kimi Team」としてのみ著者が記載され、個人の貢献が不明。
- 訓練に使用した計算資源(GPU 数、GPU 時間)が報告されていない。
- LiveCodeBench で o1 に劣後する点の分析が不足している。
- コンテキスト長スケーリングの実験は「k1.5 よりもはるかに小さい内部モデル」で行われており、本番モデルでの検証結果が限定的。
## 出典
- [[@2025__arXiv__Kimi K1.5 - Scaling Reinforcement Learning with LLMs]](本ページ)