# Kimi-Researcher
Navigation: [[entities/_index]] | [[index]]
## 概要
[[Moonshot]] が開発した自律型リサーチエージェント。内部版の Kimi k シリーズモデルを基盤とし、エンドツーエンドのエージェント型 RL(REINFORCE)のみで訓練される。3 つのツール(並列検索・テキストブラウザ・コード実行)を統合し、タスクあたり平均 23 の推論ステップ・200 以上の URL 探索・70 以上の検索クエリを実行する。Humanity's Last Exam で Pass@1 26.9%(初期 8.6% から RL のみで向上)、xbench-DeepSearch で 69% pass@1 を達成し、o3+検索ツールを上回る。
コンテキスト管理機構により単一ロールアウトを 50 イテレーション超に拡張し、ガンマ減衰報酬で効率的な探索を促進する。Kubernetes ベースのハイブリッドクラウド上で完全非同期ロールアウトとターンレベル部分ロールアウト(1.5 倍以上の高速化)を実現する大規模インフラストラクチャを備える。エージェント-ツール通信には [[Model Context Protocol]] を使用する。
RL のみから矛盾情報の自己修正や追加検証行動が創発する。基盤モデルと RL 訓練モデルのオープンソース化が計画されている。
## 関連
- [[Moonshot]] — 開発元
- [[Kimi K2.5]] — 同社の基盤モデルチェックポイント
- [[Model Context Protocol]] — エージェント-ツール通信プロトコル
- [[エージェント型強化学習]] — 訓練パラダイム
- [[@2025__Moonshot AI__Kimi-Researcher - End-to-End RL Training for Emerging Agentic Capabilities]] — 出典
## 出典
- [[@2025__Moonshot AI__Kimi-Researcher - End-to-End RL Training for Emerging Agentic Capabilities]]