## Memo ![[Pasted image 20251126111332.png]] ## Memo with LLM ### 論文情報 **論文のタイトル** Agentic Troubleshooting Guide Automation for Incident Management **著者と所属** - Jiayi Mao (Tsinghua University, China) - Liqun Li (Microsoft, China) - Yanjie Gao (Microsoft Research, China) - Zegang Peng (Tsinghua University, Beijing, China) - Shilin He (Microsoft, China) - Chaoyun Zhang (Microsoft, China) - Si Qin (Microsoft, China) - Samia Khalid (Microsoft, USA) - Qingwei Lin (Microsoft, China) - Saravan Rajmohan (Microsoft, USA) - Sitaram Lanka (Microsoft, USA) - Dongmei Zhang (Microsoft, China) **カンファレンス/ジャーナル名** arXiv (preprint) **発表年** 2025 (October 11, 2025) ### 論文概要 本論文は、大規模なIT システムのインシデント管理においてトラブルシューティングガイド(TSG)の自動実行を実現するための包括的なフレームワーク「StepFly」を提案している。TSGの品質改善、オフライン前処理、オンライン実行の3段階を通じて、LLMベースのエージェントが高い成功率(GPT-4.1で~94%)を達成し、実行時間の大幅な削減(並列化可能なTSGで最大70.4%)を実現している。 ### 詳細解説 #### 問題設定 大規模クラウドサービスにおけるインシデント管理は、迅速で正確な問題解決を求められる重要なプロセスである。TSG(Troubleshooting Guide)は[[SRE]]s(Site Reliability Engineers)が手動でインシデントを診断・解決するための手順書であるが、以下の課題が存在している: **入力と出力** - 入力:インシデント報告、監視ログ、メトリクスデータ - 出力:根本原因の特定、解決策の推奨、インシデント対応の記録 **主要な課題** 1. **手動実行の非効率性**:複雑で長大なTSG(平均3000トークン、5-15ステップ)の手動実行は時間がかかり、エラーが起きやすい 2. **TSG品質の問題**:92個の実世界TSGの調査結果より、以下の5つのカテゴリーで品質問題が確認された: - Clarity and Precision(CP):37.4%(曖昧な指示、不明確なアクション説明) - Database Instruction(DI):27.2%(クエリテンプレートの問題、ハードコードされたパラメータ) - Data Flow(DF):20.4%(入力ソースの不明確性、パラメータ欠落) - Presentation and Structure(PS):9.9%(フォーマッティング問題) - Control Flow(CF):5.1%(次のステップが不明確) 3. **複雑な制御フロー**:条件分岐、早期終了、複数の終了ポイントがLLMによる制御フロー理解を困難にしている 4. **データ集約的なクエリ**:TSGの約35.85%はKQL(Kusto Query Language)などのテンプレートクエリで構成されており、LLMによるクエリ生成は高いエラー率を示す 5. **並列実行の可能性**:多くのTSGステップは独立しており、複数のSREが協力する場合と同様に並列実行が可能であるが、既存のLLMエージェントはこれに対応していない #### 提案手法 StepFlyは、3段階のワークフローを特徴とするエンドツーエンドのagentic フレームワークである: **第1段階:TSG品質改善** 品質向上ガイドラインとTSG Mentorツールを提供: - **品質ガイドライン**:実証研究に基づく包括的なライティングガイド。各ステップは以下を含むテンプレートに従う: - ステップのタイトル - 詳細な指示 - 期待される結果の明示 - 次のステップへの明確な接続(すべての可能性と条件付きで) - **TSG Mentorツール**:LLMベースの自動検出ツール - 入力:オリジナルTSG - 処理:ベクトル距離に基づいてFew-shot例を動的に選択 - 出力:改行された形式のTSGと内容的な問題アノテーション - 性能:リコール 0.78、精度 0.85、F1スコア 0.81 **第2段階:オフライン前処理** 2つの主要な処理を実行: 1. **実行DAG(Directed Acyclic Graph)の抽出** TSGの非構造化テキストから構造化された実行フローを抽出: - グラフ G=(V,E) として表現(V: ステップ、E: ステップ間の遷移) - エッジは条件付き(条件に依存)または無条件(常に実行) - 各ノードは状態を持つ(unknown, enabled, disabled) - LLMベースの抽出で JSON形式で出力 2. **Query Preparation Plugins(QPPs)の抽出** テンプレートクエリの自動処理メカニズム: - 従来のアプローチ:テキストからクエリを生成 → データベースクライアント実行(エラーが多い) - 新しいアプローチ:テンプレートをQPP化 → パラメータ埋め込み → 実行 例: ``` // テンプレート内のプレースホルダー認識 where DeployRing == '{ring}' ↓ // QPP化 QPP1(..., ring='test', ...) → where DeployRing == 'test' ``` **第3段階:オンライン実行** DAGガイド付きスケジューラー・エグゼキューター フレームワーク: - **スケジューラー**:イベント駆動型モデルに基づく - 開始ノードから実行を開始 - ノード完了時にエッジ状態を更新 - 条件を評価して次の実行可能ステップを特定 - リトライメカニズム(設定可能な制限付き) - **エグゼキューター**:個々のTSGステップを実行するエージェント - ステップの説明と関連情報を取得 - ツール(プラグイン)を使用して具体的なアクションを実行 - 結果をメモリシステムに記録 - **メモリシステム**:構造化データの管理 - プラグインからの出力を構造化データとして保持 - テキスト化されていないデータ形式で効率性を向上 - **プラグイン**:外部システムとの相互作用 - ログデータベースクライアント(KQLクエリ実行) - メトリクスデータベースクライアント - コードインタープリター(データ分析) - DevOpsツール連携 #### 新規性 1. **TSG品質の実証研究**:92個の実世界TSGを対象とした初の包括的な研究。5つのカテゴリーに分類された品質問題の詳細な分析は、自動化への重要な前提条件を提供する 2. **TSG Mentorの開発**:品質検出ツールとして機能し、SREが品質を改善するための具体的なフィードバックを自動的に提供 3. **Query Preparation Plugins(QPPs)の概念**:従来のテキスト-クエリ生成アプローチの代わりに、テンプレートベースのクエリ準備メカニズムを導入。これにより生成エラーを削減し、効率を向上させる新規な方法 4. **DAGベースの実行制御**:単なるテキスト指示ではなく、形式的なDAG表現に基づいた厳密なステップ実行フロー制御。これにより、LLMが複雑な制御フローを正確に遵守できるようにする 5. **並列実行メカニズム**:複数のエグゼキューターを独立したステップに割り当てる仕組みにより、単一エグゼキューターではなく複数のSREが協力する場合と同様に並列診断を実現 6. **総合的なフレームワーク**:品質改善、前処理、実行を統合した包括的なエンドツーエンドソリューション。既存のLLMベース手法(Nissist, LLexus, Flash等)より専門的で構造化されたアプローチ #### 実験設定 **データセット** - 92個の実世界TSG(Microsoftの9つのチーム、高トラフィックサービス) - 各チームは過去数ヶ月間に多数のインシデントに対応 - 対象範囲:共通データソース(サービスログ、メトリクス、DevOpsプラットフォーム)のみ **評価対象となるLLMモデル** - GPT-4.1(高性能) - GPT-4.1-mini(低リソース) **評価指標** 1. **TSG Mentor評価**(検証セット:92個のTSGを Leave-one-out で評価) - リコール、精度、F1スコア - 一致基準:同一カテゴリーで±5行以内 2. **StepFly実行評価** - 成功率(ステップの正確な実行) - トークン消費量 - 実行時間 3. **並列実行評価** - 並列化可能なTSGのサブセット - 実行時間削減率(基準:順序実行) #### 実験結果 **TSG Mentorの性能** |指標|値| |:---:|:---:| |リコール|0.78| |精度|0.85| |F1スコア|0.81| 検出された品質問題の分布: - Clarity and Precision(CP):37.4% - Database Instruction(DI):27.2% - Data Flow(DF):20.4% - Presentation and Structure(PS):9.9% - Control Flow(CF):5.1% **StepFlyの実行成功率** |モデル|成功率| |:---:|:---:| |GPT-4.1|~94%| |GPT-4.1-mini|~84%| ベースライン手法(TaskWeaverベース)よりも大幅に優れた成功率を実現 **効率性指標** - **トークン消費**:ベースライン手法よりも少ないトークン消費で高い成功率を達成 - **実行時間**:順序実行と比較して、並列化可能なTSGで顕著な削減 **並列実行による効果** 並列化可能なTSGのサブセットにおいて: - 実行時間削減率:32.9% ~ 70.4% - 並列性の程度によって削減率が変動 例)図1のTSG(9ステップ): - ステップ2、3.1-3.4、4.1-4.2は並列実行可能 - 単一エグゼキューターでの順序実行と比較して大幅な高速化 ### 主要な知見と限界 **主要な知見** 1. 実世界のTSGの大半は自動化に適さない品質問題を抱えている 2. テンプレートクエリはTSGの35%以上を占め、LLM生成エラーの主要因 3. TSGステップの独立性により並列実行による高速化が可能 **限界と今後の方向性** - 研究スコープを共通データソースのみに限定(カスタムプラグインの認証管理複雑性) - DAG抽出と QPP抽出の精度向上の余地 - より複雑で専門的なTSGへの拡張 - 他のドメイン(医療、金融)への適用可能性の検証 # heading ## Abstract 大規模なIT システムにおける効果的なインシデント管理は、トラブルシューティングガイド(TSG)に依存しているが、手動での実行は遅く、エラーが発生しやすい。LLMの最近の進展はインシデント管理タスクの自動化に期待を持たせているが、既存のLLMベースソリューションは、TSG品質問題の管理、複雑な制御フローの解釈、データ集約的クエリの処理、実行並列化の活用といった重要な課題への専門的なサポートが不足している。本研究では92個の実世界TSGに対する実証研究を実施し、その知見に基づいて、トラブルシューティングガイド自動化のための新規なエンドツーエンド agentic フレームワーク「StepFly」を提案する。提案手法は3段階のワークフローを特徴とする:第1段階はTSG品質改善を支援する包括的ガイドと「TSG Mentor」ツールを提供し、第2段階はオフライン前処理にLLMを用いて非構造化TSGから構造化された実行DAGを抽出し、専用のQuery Preparation Plugins(QPPs)を生成する。第3段階はDAGガイド付きスケジューラー・エグゼキューター フレームワークとメモリシステムを使用してオンライン実行を行い、正確なワークフロー実行と独立ステップの並列実行をサポートする。実世界TSGおよびインシデントに対する経験的評価により、StepFlyは GPT-4.1 で~94%の成功率を達成し、ベースライン手法を上回る成果を示すとともに、より少ない実行時間とトークン消費を実現している。さらに、並列化可能なTSGに対して、実行時間を32.9%~70.4%削減することを実証した。