Kimi-Researcher - yuuk1's Digital Garden

# Kimi-Researcher Navigation: [[entities/_index]] | [[index]] ## 概要 [[Moonshot]] が開発した自律型リサーチエージェント。内部版の Kimi k シリーズモデルを基盤とし、エンドツーエンドのエージェント型 RL(REINFORCE)のみで訓練される。3 つのツール(並列検索・テキストブラウザ・コード実行)を統合し、タスクあたり平均 23 の推論ステップ・200 以上の URL 探索・70 以上の検索クエリを実行する。Humanity's Last Exam で Pass@1 26.9%(初期 8.6% から RL のみで向上)、xbench-DeepSearch で 69% pass@1 を達成し、o3+検索ツールを上回る。コンテキスト管理機構により単一ロールアウトを 50 イテレーション超に拡張し、ガンマ減衰報酬で効率的な探索を促進する。Kubernetes ベースのハイブリッドクラウド上で完全非同期ロールアウトとターンレベル部分ロールアウト(1.5 倍以上の高速化)を実現する大規模インフラストラクチャを備える。エージェント-ツール通信には [[Model Context Protocol]] を使用する。 RL のみから矛盾情報の自己修正や追加検証行動が創発する。基盤モデルと RL 訓練モデルのオープンソース化が計画されている。 ## 関連 - [[Moonshot]] — 開発元 - [[Kimi K2.5]] — 同社の基盤モデルチェックポイント - [[Model Context Protocol]] — エージェント-ツール通信プロトコル - [[エージェント型強化学習]] — 訓練パラダイム - [[@2025__Moonshot AI__Kimi-Researcher - End-to-End RL Training for Emerging Agentic Capabilities]] — 出典 ## 出典 - [[@2025__Moonshot AI__Kimi-Researcher - End-to-End RL Training for Emerging Agentic Capabilities]]