# AlertRCA
[[Tsinghua University]] & BNRist の [[Zhaoyang Yu]]・[[Qianyu Ouyang]]・[[Dan Pei]] らと、CNIC/CAS の [[Changhua Pei]] らが開発したアラートベース根本原因分析アルゴリズム。CCGRID 2024 で発表。(Source: [[@2024__CCGRID__AlertRCA - Causality Enhanced Graph Representation Learning for Alert-Based Root Cause Analysis]])
コードは https://github.com/NetManAIOps/AlertRCA で公開されている。
## 構成要素
AlertRCA は 4 モジュールで構成される。
- **ADG(Alert Dependency Graph)**: サービス依存グラフ(SDG)から自動生成するアラート間の中間グラフ。ドメイン知識不要で構築可能。
- **Alert2Vec**: BERT + 浅い MLP でアラートのマルチモーダルな属性を次元 100 のベクトルに変換するモジュール。
- **CPGAT(Causality Prediction Graphical Attention Network)**: ADG の各エッジに非対称アテンション因果スコアを割り当て、アラート因果グラフ(ACG)を生成する GNN。
- **DAGNN(Dispersing and Aggregating Graph Neural Network)**: ACG 上で分散集約構造・自己残差構造・自己ループ注意を組み合わせて根本原因確率を推定する GNN。
## 性能
- 大規模 EC 本番データ(5,000 サービス、785 件の障害)で top-1 83.9% / top-3 96.8% を達成。
- 手作業ルールを要する Groot を top-1 精度で上回る。
- CPU のみで平均推論時間 2 秒/障害。
- 訓練データ 3 ヶ月での早期起動性能が Groot より優れる。
- DejaVu 公開データセットで top-1 精度を +24.8%(A1)・+15.7%(A2)改善。
## 関連
- ソース: [[@2024__CCGRID__AlertRCA - Causality Enhanced Graph Representation Learning for Alert-Based Root Cause Analysis]]
- 開発者: [[Zhaoyang Yu]] / [[Changhua Pei]] / [[Dan Pei]] / [[Qianyu Ouyang]]
- 所属: [[Tsinghua University]] / [[BNRist]] / CNIC/CAS([[Changhua Pei]]) / Stony Brook University / [[Huawei Technologies]] / eBay Inc.
- 概念: [[根本原因分析]] / [[因果推論ベースRCA]] / [[グラフニューラルネットワーク]] / [[アラート管理]]