## Memo
## Memo with LLM
### 論文情報
- **論文タイトル**: eARCO: Efficient Automated Root Cause Analysis with Prompt Optimization
- **著者と所属**: Drishti Goel (Microsoft), Fiza Husain, Aditya Singh, Supriyo Ghosh (Microsoft), Anjaly Parayil (Microsoft), Chetan Bansal (Microsoft), Xuchao Zhang (Microsoft), Saravan Rajmohan (Microsoft)
- **カンファレンス/ジャーナル名**: arXiv preprint (arXiv:2504.11505)
- **発表年**: 2025年
### 論文概要
本論文は、大規模クラウドシステムにおけるインシデントの根本原因分析(RCA)を自動化するためのeARCOフレームワークを提案している。PromptWizardを活用した最適化されたプロンプト指示と意味的に類似した履歴例を組み合わせることで、[[LLM]]と[[ファインチューニング]]された[[SLM]](Small Language Model)の両方でRCA推薦の精度を大幅に向上させた。
### 詳細解説
#### 問題設定
**入力**: インシデントのメタデータ(タイトル、初期サマリ、所有サービス名)
**出力**: 根本原因の推薦と説明
**必要なデータ**:
- Microsoft社から収集した18万件以上の履歴インシデントデータ(2022年1月から2024年6月)
- 各インシデントのタイトル、初期サマリ、所有サービス名、グラウンドトゥルースの根本原因
従来の手動による根本原因分析は、オンコール・エンジニア(OCE)に多大な労力と専門知識を要求し、時間を要する問題であった。既存のLLMベースの手法は、静的で手動設計されたプロンプトを使用するため、最適でない結果となることが多い。
#### 提案手法
eARCOフレームワークは以下の主要コンポーネントで構成される:
**1. プロンプト指示最適化**
- PromptWizard(PW)を活用して、最適なプロンプト指示を自動生成
- Mutate、Score、Critique、Synthesizeの4ステップを反復的に実行
- エキスパートペルソナとタスクインテントを導入し、OCEの役割を模倣
**2. インコンテキスト例選択**
- Sentence Transformerモデルを使用してインシデントをベクトル化
- FAISSライブラリを用いてTop-K意味的類似インシデントを動的選択
- 最大10件の類似例をプロンプトに含める
**3. ファインチューニング済みSLM**
- Phi-3-Mini、Phi-3-Medium、Phi-3.5-Miniモデルを18万件のインシデントデータでファインチューニング
- AdamWオプティマイザーと線形学習率スケジューラーを使用
- 時系列分割により実世界シナリオを模倣(古いデータで訓練、新しいデータでテスト)
#### 新規性
**先行研究との違い**:
1. **自動プロンプト最適化**: 従来の静的・手動設計プロンプトに対し、PromptWizardによる自動最適化を導入
2. **コスト効率性**: 高価なLLMの代替として、最適化プロンプトを用いたファインチューニング済みSLMを提案
3. **総合的フレームワーク**: プロンプト最適化と動的例選択を統合した包括的なアプローチ
従来のAhmed et al.(2023)によるGPT-3ファインチューニング手法や、Zhang et al.(2024)によるRAGベースICL手法と比較して、計算効率性と精度の両方を改善している。
#### 実験設定
**使用データセット**:
- 訓練用: 16万件以上のインシデント
- 検証用: 1万件
- テスト用: 2,891件(時系列で分割)
**評価指標**:
- [[GPT-4]]による自動評価(1-5点スケール)
- 47名のOCEによる人間評価(精度と可読性)
- 10名の研究者による追加評価
**ベースライン手法**:
- Manual-SS(手動プロンプト+意味的類似例)
- PW-Default(PW最適化プロンプト+静的例)
- PW-SS(PW最適化プロンプト+意味的類似例)
#### 実験結果
**主要な成果**:
1. **LLMでの改善**:
- GPT-4でPW-SS使用時、手動プロンプトに対して21%の精度向上(2.03→2.33)
- [[GPT-4o]]でPW-SS使用時、手動プロンプトに対して21%の精度向上(2.07→2.51)
2. **SLMでの改善**:
- ファインチューニング済みSLMでPW使用時、13%の精度向上
- [[Phi-3.5]]-miniが最高性能(フィルタ済みデータセットで2.37点)
3. **アブレーション研究**:
- インコンテキスト例の数を0から10に増やすことで27%の改善
- プロンプト最適化の各段階で一貫した性能向上を確認
4. **人間評価**:
- OCEによる評価でPW-SSが最高精度(2.91点)
- 研究者による評価でも一貫してPW-SSが最高性能(精度3.50点、可読性4.30点)
5. **コスト効率性**:
- ファインチューニング済みSLMは、高価なLLMの費用対効果の高い代替手段として機能
- 長いコンテキスト長でのLLM推論コストを大幅に削減
この研究は、[[AIOps]](AI for Operations)システムにおけるプロンプト最適化の優位性を実証し、計算オーバーヘッドを増加させることなく大幅な性能向上を実現している。
## Abstract
大規模クラウドシステムにおけるインシデントの根本原因分析(RCA)は、オンコール・エンジニア(OCE)にとって多大な手動労力を必要とする複雑で知識集約的なタスクである。RCAの改善は、インシデント解決プロセスの加速、サービスダウンタイムの削減、手動作業の軽減にとって不可欠である。大規模言語モデル(LLM)の最近の進歩により、RCAを含むインシデント管理ライフサイクルの様々な段階で効果的な解決が実証されている。しかし、既存のLLMベースのRCA推薦は、通常、静的で手動設計されたプロンプトを用いたデフォルトのファインチューニングや検索拡張生成(RAG)手法を活用しており、最適でない推薦につながっている。本研究では、最先端のプロンプト最適化技術である「PromptWizard」を活用し、推論時に基盤となるLLMを照会するために、意味的に類似した履歴例と組み合わせた最適化されたプロンプト指示を自動的に特定する。さらに、Microsoftから18万件以上の履歴インシデントデータを活用して、RCA推薦生成のためのコスト効率の良いファインチューニング済み小規模言語モデル(SLM)を開発し、そのような領域適応モデルにおけるプロンプト最適化の力を実証した。我々の広範囲にわたる実験結果は、プロンプト最適化がRAGベースのLLMおよびファインチューニング済みSLMに対して、3千件のテストインシデントにおいてRCA推薦の精度をそれぞれ21%および13%向上させることを示している。最後に、インシデント所有者との人間評価により、RCA推薦タスクにおけるプロンプト最適化の有効性が実証された。これらの知見は、計算オーバーヘッドを増加させることなく大幅な向上をもたらし、AI for Operations(AIOps)システムにプロンプト最適化を組み込む利点を強調している。