2024__arXiv__DECO - Life-Cycle Management of Production-Scale Copilots

## Memo ## Memo with LLM https://claude.ai/chat/42490b6c-1923-47c6-881f-0c61c56afb07 ``` # 論文情報 - **論文のタイトル**: DECO: Life-Cycle Management of Production-Scale Copilots - **著者と所属**: Yiwen Zhu, Mathieu Demarne, Kai Deng, Wenjing Wang, Nutan Sahoo, Hannah Lerner, Anjali Bhavan, Divya Vermareddy, Yunlei Lu, Swati Bararia, William Zhang, Xia Li, Katherine Lin, Miso Cilimdzic, Subru Krishnan (Microsoft, USA および William Zhang は Carnegie Mellon University) - **カンファレンス/ジャーナル名**: PVLDB (Proceedings of the VLDB Endowment) - **発表年**: 2025 (論文はarXiv:2412.06099v2として2025年3月10日に公開) # 論文概要 DECOは、ソフトウェアエンジニアリングの日常業務と障害対応を支援するためのコパイロット（AI支援システム）を開発、デプロイ、管理するための包括的なフレームワークである。このフレームワークは自然言語クエリを検索クエリに変換する機能と軽量なエージェントフレームワークを特徴とし、多様なデータソースから関連情報を抽出し、最適なスキルを選択することで、複雑な技術的質問に対応し、内部リソースへの自動アクセスを提供する。2023年9月の立ち上げ以来、DECOは数万件のインタラクションと数百人の月間アクティブユーザー（MAU）を獲得し、オンコールエンジニア（OCE）の生産性向上に大きく貢献している。 # 詳細解説 ## 問題設定 **入力**: - ユーザーからの自然言語クエリ（例：技術的質問、障害に関する質問） - 複数の情報源： - トラブルシューティングガイド（TSG） - インシデント報告書（IcM） - コードリポジトリ - 内部Stack Overflow - チーム固有のツール **出力**: - ユーザーの質問に対する包括的な回答 - 関連ドキュメントへの参照 - 内部ツールへのアクセス（例：Kustoクエリの実行） **必要なデータ**: - 前処理されたドキュメントインデックス - ユーザーのクエリと過去のチャット履歴 - 各スキル/エージェントの定義と説明 ## 提案手法 DECOは4つの主要コンポーネントで構成されています： 1. **データ前処理**： - IcM前処理：GPT-4oモデルを使用して非構造化のインシデントログから構造化された要約を生成 - TSG前処理：長い文書を小さなチャンクに分割し、マルチフィールドハイブリッド検索を可能にする - コード前処理：Language-Agnostic RAG（LA-RAG）を使用して複数言語のコードリポジトリをインデックス化 2. **バックエンドサービス**： - 階層的なエージェント計画アプローチを採用し、ユーザークエリに基づいて適切なエージェントとスキルを選択 - PromptFlowを使用したエージェントフレームワークの調整 - ステートレスRESTアピ設計により、フロントエンドでのセッション状態管理と認証を分離 3. **検索アルゴリズム**： - NL2SearchQuery：LLMを使用してユーザークエリから最適な検索パラメータを抽出 - 並列で実行される複数の検索クエリ - 再ランキングアルゴリズムによる検索結果の最適化 4. **フロントエンドサービス**： - Azure Botフレームワークを使用したユーザーインターフェース - Microsoft Teamsとの統合 - セッション状態とメモリ管理特に重要な技術的特徴として、NL2SearchQueryアルゴリズムがあります。これは以下のように機能します： - ユーザークエリから検索に必要な引数（意図、検索フィールド、検索方法、時間範囲など）を抽出 - 例えば、IcM検索では： - ユーザーの意図（例：「サーバーの再起動による解決策」） - 検索フィールド（例：「mitigation」） - 時間範囲（例：{"resolve_date": 14}） - インシデントタイプ（例：CRI - Customer Reported Incident）再ランキングはドキュメント関連性のスコアリングを行います： ``` P(d) = α · IS + β · TS + γ · SS ``` ここで、ISは情報スコア、TSは時間スコア、SSはソーススコアを表します。 ## 新規性 DECOの新規性は以下の点にあります： 1. **汎用フレームワーク**：従来のコパイロット開発では試行錯誤的なプロンプト調整が必要でしたが、DECOは「自律モード」を導入し、テナントのセルフオンボーディングを容易にしました。 2. **知識ギャップの解消**：大量のインシデントログを構造化されたガイドに変換するメカニズムを実装し、知識ベースを充実させています。 3. **応答品質の向上**： - スキルとエージェント選択のためのエージェントフレームワークの採用 - 既存のインデックスサービス（Azure AI Searchなど）をサポートする軽量な検索アルゴリズム - NL2SearchQueryによる検索精度の向上 - Language-Agnostic RAG（LA-RAG）による多言語コード検索 4. **ライフサイクル管理**：自己ホスティングモデルと完全自動化されたデプロイメントパイプライン、継続的モニタリング、デバッグ機能を提供しています。従来の研究との違いとして、DECOは： - AutoGen や Letta のようなエージェントフレームワークと比較して、プロダクションスケールのデプロイメントに最適化されたより軽量なアプローチを取っています - RAFTやAR2などの高度な検索モデルと違い、追加のMLトレーニングが不要で実装が容易です - フロントエンドとバックエンドを分離し、ステートレスAPIを採用することで、スケーラビリティが向上しています ## 実験設定 DECOの評価は、オフライン評価とオンライン評価の2つのカテゴリに分類されています： **オフライン評価**： - プランナー評価器：異なるスキルをトリガーするよう設計された18の代表的ユーザー質問を使用 - TSG評価器：ユーザーから高評価を得た実際の会話から抽出された「ゴールデン」ドキュメントセットを使用 - インシデント検索評価器：実際のユーザークエリから抽出された100のサンプルインシデントを使用 - 類似性評価器：コード変更後のレスポンス一貫性を評価 **オンライン評価**： - 3,000以上のメッセージを分析（2025年1月から2月のデータ） - レスポンスのカテゴリ分類： 1. 関連-根拠あり 2. 関連-一般 3. 部分的に関連-根拠あり 4. ドキュメント問題 5. 根拠付け問題 **評価指標**： - 精度（Precision）と再現率（Recall） - カバレッジ：ゴールデンセットの何パーセントが検索結果に含まれているか - 類似性スコア：「Low」、「Medium」、「High」 ## 実験結果主な実験結果は以下の通りです： 1. **プランナーアルゴリズムの評価**： - Few-Shot Agenticプランナーが最高のカバレッジ（約96%）を示し、Zero-Shot Flatプランナー（約75%）を大幅に上回りました 2. **検索アルゴリズムの比較**： - ハイブリッド検索（HB-*）は他の方法と比較して再現率を大幅に向上（約60%→70%） - ドキュメントフィルタリングはコンテキスト長を削減（約8,000→7,000文字）しながら再現率を維持 3. **埋め込みモデルの比較**： - 「text-embedding-3-large」モデルが他のモデルと比較して同等のコンテキスト長でより正確な検索結果を提供 4. **インシデント検索の評価**： - DECOのインシデント検索方法は、再ランキングアルゴリズムなしでも、ベースラインの「Similar Incident API」よりも優れたパフォーマンスを示しました - 再ランキングアルゴリズムを使用すると、100のインシデントペアのうち97が「High」類似性スコアを達成 5. **オンライン評価**： - レスポンスの約60%が「関連-根拠あり」または「関連-一般」に分類 - 主な問題はドキュメント問題（23%）で、ハルシネーション（根拠付け問題）はわずか0.1% - コパイロットはセッションあたり平均2.2ラウンドのインタラクションを持ち、95パーセンタイルで6ラウンド、99パーセンタイルで11ラウンド 6. **ユーザーフィードバック**： - ☆1以下の低評価レスポンスのうち44%がドキュメント問題に関連 - オンコールエンジニア（OCE）へのインタビューでは、DECOがインシデントのトリアージ時間を1インシデントあたり約10〜20分短縮したと報告 DECOは2023年9月の立ち上げ以来、Microsoftのさまざまな部門にわたる数十のチームによって採用され、Azure Dataの組織内だけでも数万件のメッセージと500以上の月間アクティブユーザー（MAU）を記録しています。 ``` ## Abstract ソフトウェアエンジニアは、トラブルシューティングガイド（TSG）、インシデントレポート、コードリポジトリ、複数の利害関係者によって開発された様々な内部ツールなど、異種のドキュメントや遠隔測定データにアクセスするという課題に頻繁に取り組んでいる。オンコール業務は避けられませんが、インシデント解決は、レガシー・ソースの不明瞭さと厳しい時間的制約のプレッシャーにより、さらに困難なものとなります。オンコール・エンジニア（OCE）の効率を高め、日々のワークフローを合理化するために、私たちはDECOを導入しました。DECOは、エンジニアリング・ルーチンの生産性を向上させるためにカスタマイズされた、エンタープライズ・グレードのコパイロットを開発、導入、管理するための包括的なフレームワークです。本稿では、DECOフレームワークの設計と実装について詳述し、革新的なNL2SearchQuery機能と軽量なエージェントフレームワークを強調する。これらの機能は、多様なソースから関連情報を抽出するだけでなく、ユーザからの問い合わせに対して最も適切なスキルを選択する、効率的でカスタマイズされた検索拡張生成（[[RAG]]）アルゴリズムをサポートする。これにより、複雑な技術的質問に対応し、社内リソースへのシームレスで自動化されたアクセスを提供することができます。さらにDECOには、構造化されていないインシデントログをユーザーフレンドリーな構造化ガイドに変換する堅牢なメカニズムが組み込まれており、ドキュメンテーションのギャップを効果的に埋めています。 2023年9月の発売以来、DECOは広く採用され、その有効性を実証してきました。