> [!abstract] 概要(arXiv abstract の日本語訳)
> 大規模クラウドシステムにおけるインシデントの根本原因分析(RCA)は、複雑な知識集約型タスクであり、オンコールエンジニア(OCE)による多大な手作業を要することが多い。RCA の改善はインシデント解決プロセスの加速とサービスダウンタイムおよび手作業の削減に不可欠である。大規模言語モデル(LLM)の最近の進歩により、RCA を含むインシデント管理ライフサイクルの異なる段階における問題解決において高い効果が実証されている。しかし、既存の LLM ベース RCA 推薦は一般的に、静的な手動設計プロンプトによるデフォルトのファインチューニングまたは検索拡張生成(RAG)手法を活用しており、最適ではない推薦につながっている。本研究では、最先端のプロンプト最適化技術「PromptWizard」を活用して、推論時に基盤 LLM への問い合わせに使用する、意味的に類似した過去事例と組み合わせる最良の最適化プロンプト命令を自動識別する。さらに、Microsoft の 180K 超の履歴インシデントデータを活用し、RCA 推薦生成のためのコスト効率の良いファインチューニング済み小型言語モデル(SLM)を開発し、このようなドメイン適応済みモデルにおけるプロンプト最適化の有効性を実証した。広範な実験結果は、プロンプト最適化が 3K テストインシデントにおいて RAG ベース LLM およびファインチューニング済み SLM と比較して、それぞれ 21% および 13% RCA 推薦の精度を向上できることを示している。最後に、インシデント担当者との人間評価により、RCA 推薦タスクにおけるプロンプト最適化の有効性が実証された。これらの知見は、計算オーバーヘッドを増加させることなく大幅な改善をもたらす AIOps システムへのプロンプト最適化組み込みの優位性を裏付けるものである。
## 論文情報
- **タイトル**: eARCO: Efficient Automated Root Cause Analysis with Prompt Optimization
- **著者**: Drishti Goel, Raghav Magazine, Supriyo Ghosh, Akshay Nambi, Prathamesh Deshpande, Xuchao Zhang, Chetan Bansal, Saravan Rajmohan
- **所属**: Microsoft
- **媒体**: arXiv プレプリント(cs.SE)
- **発表**: 2025-04-15
- **arXiv ID**: 2504.11505v1
- **コード URL**: 未公開
## 概要
eARCO(Efficient Automated Root Cause Analysis with prompt Optimization)は、クラウドインシデントの RCA を自動化するフレームワークである。[[PromptWizard]] による最適化プロンプトと RAG ベースの意味的類似事例検索を組み合わせることで、手動設計プロンプト比で最大 21% の精度向上を達成した。さらに Microsoft の 180K 履歴インシデントでファインチューニングした Phi-3 系 SLM に最適化プロンプトを付与することで、高コストな LLM を使わずとも競争力のある RCA 精度を実現する。
**Figure 2: eARCO フレームワーク全体アーキテクチャ**
![[_attachments/arxiv-2504.11505/fig02-earco-architecture.png]]
(図 2. eARCO フレームワーク: 左上が PromptWizard による 1 回限りのプロンプト最適化フロー(Mutate/Score/Critique/Synthesize)、左下が RAG パイプライン(履歴インシデントの Sentence Transformer エンコード → FAISS 検索)、中央でインシデント情報からクエリを生成して k 件類似事例を取得し、最適化プロンプト+メタデータ+類似事例を SLM/LLM に投入して RCA 応答を得る。Source: Figure 2 of Goel et al. 2025.)
## 問題設定
- **入力**: インシデントのタイトル、初期サマリ、オーナーサービス名(インシデント作成時に利用可能な情報のみ)
- **出力**: テキスト形式の根本原因推薦(RCA recommendation)
- **前提**: Microsoft の内部インシデント管理ポータル IcM に記録された履歴インシデントを参照可能
- **評価**: GPT-4 自動評価(1〜5 点スコア)+ 47 名の OCE による人間評価
RCA は複数ソースへの参照・ドメイン知識・往復コミュニケーションが必要な複雑作業で、手動では時間を要する。既存の LLM ベース RCA([3] Ahmed+ ICSE 2023 のファインチューニング、[32] Zhang+ FSE Companion 2024 の RAG-ICL)は静的・手動設計プロンプトを使い最適化されていない。また大規模 LLM のインコンテキスト推論(長コンテキスト)は本番ではコスト面で問題となる。
## 提案手法
### アーキテクチャ
eARCO は 2 つのコンポーネントから構成される。
1. **プロンプト命令最適化**(1 回限りのオフライン処理)
2. **推論時のインコンテキスト事例選択**(リアルタイム)
**Figure 1: PromptWizard が生成した最適化プロンプト**
![[_attachments/arxiv-2504.11505/fig01-optimized-prompt.png]]
(図 1. PromptWizard が GPT-4o で生成した RCA 向け最適化プロンプト命令: コンテキスト情報の特定→事象分類→症状列挙→過去事例レビュー→環境変化評価→ログ解析→RCA 統合→最終結論(`<ANS_START>`/`<ANS_END>`タグ)の 8 ステップ構造。Source: Figure 1 of Goel et al. 2025.)
### プロンプト最適化(PromptWizard)
[[PromptWizard]](Agarwal+ arXiv 2024)は離散プロンプト最適化アプローチで、以下の 4 段階をイテレーティブに繰り返す(Source: §3.1):
1. **Mutate**: 事前定義された「思考スタイル」を使い初期プロンプトの変種を 1 回の LLM 呼び出しで生成
2. **Score**: 多様なトレーニングサンプルのバッチで変種プロンプトを評価しスコアを付与
3. **Critique**: 最高スコアプロンプトの強みと弱みに関するフィードバックを生成
4. **Synthesize**: フィードバックを使ってプロンプトをさらに改善
このフィードバック駆動ループが探索と活用のバランスを取る。さらに推論段階(Chain-of-Thought 埋め込み)と検証段階でハルシネーションを防ぎ、**Task Intent** と **Expert Persona**(OCE の役割)を最終プロンプトに追加する。
最終最適化プロンプトは以下の 4 要素から構成される:
- 問題記述
- 最適化命令
- 静的・多様なインコンテキスト事例(推論付き)
- タスク意図 + エキスパートペルソナ
eARCO 用の PromptWizard 設定: `mutate_refine_iterations=3`、`mutation_rounds=3`、`refine_task_eg_iterations=3`、`questions_batch_size=5`、`min_correct_count=3`、`few_shot_count=10`(Source: §5.1)。25〜30 件の多様な履歴インシデントを入力とし、100 回未満の LLM クエリで収束する。
### インコンテキスト事例選択(RAG パイプライン)
各インシデントのタイトルと要約を Sentence Transformer でエンコードし FAISS ベクトルデータベースに格納。推論時は現在のインシデントクエリベクトルを用いて L2 距離で上位 K 件を取得する(Source: §3.2)。
PW が生成した静的事例はすべてのテストインシデントに同一のものを使うが、意味的類似検索(Semantic Similar: SS)は各インシデントに動的な事例を提供する。
### ファインチューニング済み SLM(Section 4)
Phi-3.5-mini(3.8B)・Phi-3-mini(3.8B)・Phi-3-medium(14B)を Hugging Face SFT Trainer でファインチューニング。学習データは時系列分割(古い事例→訓練、最近の事例→テスト)で 160K+ 件を使用。AdamW オプティマイザ、線形学習率スケジューラ、バッチサイズ 64、エポック 3 回。NVIDIA A100/V100 8 枚クラスタで実施(Phi-3-mini: 6.5 時間、Phi-3.5-mini: 13.5 時間、Phi-3-medium: 30 時間)(Source: §4, Table 1)。
## 新規性
- 既存の LLM ベース RCA([3] Ahmed+ ICSE 2023、[32] Zhang+ FSE Companion 2024)は静的・手動設計プロンプトを使い最適化されていない。本研究はプロンプト最適化を初めて RCA タスクに適用し、プロンプトと事例の相互最適化(知識の双方向移転)の有効性を示した。
- SLM のファインチューニングとプロンプト最適化の組み合わせにより、高コストな LLM の長コンテキスト使用を回避するコスト効率の良い代替案を提示した。
- LLM 基盤モデルの進化にともなってプロンプトが陳腐化する問題を、自動再最適化によって解消する枠組みを提供した。
## 実験設定
- **データセット**: Microsoft IcM(内部インシデント管理ポータル)の高重大度インシデント 180K 件(2022 年 1 月〜2024 年 6 月、1,000 以上のサービス)。時系列分割: 訓練 160K+ / 検証 10K / テスト 2,891 件
- **比較手法 8 種**: Manual-SS(手動プロンプト + 類似検索)、PW-Default(最適化プロンプト + 静的事例)、PW-SS(最適化プロンプト + 類似検索)、FtSLM、FtSLM PW、FtSLM PW noEx.、BaseSLM PW、BaseSLM PW noEx.(Source: §5.2)
- **評価**: GPT-4 による自動評価(全 2,891 件テスト)+ 47 名 OCE によるサブセット人間評価 + 研究者 10 名による評価
- **評価指標**: GPT-4 が 1〜5 点でスコアリング(精度)、人間評価では精度・可読性の 2 軸
## 実験結果
### LLM での評価(Table 2)
**Table 2: GPT-4/GPT-4o での PromptWizard 評価スコア**
![[_attachments/arxiv-2504.11505/table2-gpt4-scores.png]]
(表 2. PW-SS が Complete データセットで GPT-4: 2.33、GPT-4o: 2.51 を達成し、Manual-SS(2.03/2.07)比でそれぞれ **21% 向上**。PW-Default(静的事例)は Manual-SS を若干上回るが、意味的類似検索との組み合わせが効果を最大化する。Source: Table 2 of Goel et al. 2025.)
PW-Default(静的事例のみ)は GPT-4: 2.07、GPT-4o: 2.13 とわずかに Manual-SS を上回る。PW-SS はさらに意味的類似検索を加えることで 2.33/2.51 まで向上し、Manual-SS 比で 21% 向上した(Source: §6.1)。
PromptWizard の多段階最適化の寄与をアブレーションで検証: ベースプロンプト(2.07)→命令チューニング後(2.10)→事例チューニング後(2.22)→最終 PW-SS(2.51)と段階的に向上した(Source: §6.1, Table 3)。
### SLM での評価(Table 4)
**Table 4: ベース SLM・ファインチューニング SLM の評価スコア**
![[_attachments/arxiv-2504.11505/table4-slm-scores.png]]
(表 4. Phi-3.5-mini での FtSLM PW が Filtered データセットで 2.37、Complete で 2.01 と SLM 中最高。FtSLM(最適化なし)比で 13% 向上。Source: Table 4 of Goel et al. 2025.)
Phi-3.5-mini の FtSLM PW が Filtered データセット 2.37 / Complete データセット 2.01 と全 SLM 中最高を達成。FtSLM(最適化なし: Filtered 2.09)比で 13% 向上した(Source: §6.2)。ファインチューニングなし(BaseSLM)でも PromptWizard 命令を付与すると Manual-SS(1.79)を上回る 2.26 に達する。
### アブレーション: インコンテキスト事例数(Table 5)
**Table 5: 事例数アブレーション**
![[_attachments/arxiv-2504.11505/table5-ablation-k.png]]
(表 5. 事例数 0→3→5→7→10 で完全データセット 1.97→2.07→2.24→2.40→2.51 と向上(27% 向上)。Filtered データセットでは 2.13→2.91(37% 向上)。Source: Table 5 of Goel et al. 2025.)
### 人間評価(Tables 6+7)
**Tables 6 & 7: OCE と研究者による人間評価**
![[_attachments/arxiv-2504.11505/table67-human-eval.png]]
(表 6-7. 47 名 OCE 評価(表 6): PW-SS が精度 2.91・可読性 4.21 で最高。研究者 10 名評価(表 7): PW-SS が精度 3.50・可読性 4.30 で最高。FtSLM PW は OCE 評価で一部インシデントで LLM を上回る推薦を生成し、コスト効率の高い代替として有力。Source: Tables 6-7 of Goel et al. 2025.)
## 考察
- **プロンプト最適化の汎用性**: PromptWizard は従来 NLP タスク向けに設計されたが、機密インシデント管理ドメインでも有効に機能することを示した。
- **デプロイ状況**: Manual-SS with GPT-4 の推薦は本番環境から直接取得。100 以上の社内サービスチームに 6 か月以上サービス提供中。FtSLM ソリューションも ICL パイプラインを補完する形でデプロイ済み(Source: §7)。
- **妥当性の脅威**: (1) eARCO の性能は基盤 LLM に依存する。(2) Microsoft インシデントデータのみでの評価であり、他組織への汎化は未確認。(3) GPT-4 自動評価はハルシネーション由来のノイズがある。(4) Phi シリーズ SLM のみ評価し、他オープンソース SLM との比較は未実施(Source: §7)。
## 強み
- 一度の最適化で得たプロンプトを全インシデント推論に再利用できるため、推論コストを増加させない
- 静的事例(PromptWizard が選定)と動的類似検索の両方を評価し、それぞれの貢献を分離した
- 100 未満の LLM クエリで最適化が収束する計算効率
## 弱点・課題
- Microsoft 社内データのみでの評価。他組織・他ドメインへの汎化は未検証
- Phi シリーズのみ評価。他オープンソース SLM(Llama・Mistral 等)の比較が欲しい
- 評価スケール(1〜5 点)の絶対値が低く(最高 2.91)、指標の意味が直感的でない
- 将来課題として RLHF による SLM ドメイン適応が挙げられているが未実施