# ESRO
Experience Assisted Service Reliability against Outages の略。[[Sarthak Chakraborty]]・[[Shubham Agarwal]]・[[Shaddy Garg]]・[[Shiv Saini]] らが [[Adobe Research]] India / [[University of Illinois Urbana-Champaign]] / [[IIT Kanpur]] の連携で提案した障害診断サービス(arXiv 2023)。
## 概要
ESRO はリアルタイムアラート(構造化)と過去の障害レポート(半構造化テキスト)を統合して根本原因と緩和手順を推薦する。主要コンポーネントは以下の通りだ。
- **因果グラフ(CG)**: PC アルゴリズム(χ² 検定)でアラート間の因果依存関係を抽出した CPDAG。
- **知識グラフ(KG)**: BART-large による障害レポートの abstractive summarization → BERT 埋め込み → 凝集階層クラスタリング + Silhouette スコアで 53 クラスタに集約。
- **CK グラフ**: CG と KG を障害の時間的重複(発生〜解決 + 1 時間前)で接続した統合グラフ。
- **障害クラスタ予測モデル**: Random Forest でアラートセット → 障害クラスタのマッピングを学習。
推論時はアラートのみを入力とし、(a)グラフ探索で症状ノードを到達した候補クラスタランク、(b)障害クラスタ予測モデルのランクを合算して最終クラスタを特定し、最も類似した症状ノードの根本原因・緩和手順を返す(Clust 推論)。
## 性能(Adobe SaaS 本番データ, 2020-10〜2022-06, 182 件)
- ベースライン(Incident Search / GCN)比 根本原因推薦 Rouge-1 で平均 +27.2% 改善
- 緩和手順推薦 Rouge-1 で平均 +39.0% 改善
- 障害クラスタ予測モデル top-1 精度 62% / top-5 精度 72.7%(53 クラスタ中)
コード: https://github.com/sarthak-chakraborty/ESRO
## 関連
- 論文: [[@2023__arXiv__ESRO - Experience Assisted Service Reliability against Outages]]
- 著者: [[Sarthak Chakraborty]] / [[Shubham Agarwal]] / [[Shaddy Garg]] / [[Shiv Saini]]
- 所属: [[Adobe Research]] / [[University of Illinois Urbana-Champaign]] / [[IIT Kanpur]]
- 概念: [[根本原因分析]] / [[AIOps]] / [[アラート管理]]