# AlertRCA [[Tsinghua University]] & BNRist の [[Zhaoyang Yu]]・[[Qianyu Ouyang]]・[[Dan Pei]] らと、CNIC/CAS の [[Changhua Pei]] らが開発したアラートベース根本原因分析アルゴリズム。CCGRID 2024 で発表。(Source: [[@2024__CCGRID__AlertRCA - Causality Enhanced Graph Representation Learning for Alert-Based Root Cause Analysis]]) コードは https://github.com/NetManAIOps/AlertRCA で公開されている。 ## 構成要素 AlertRCA は 4 モジュールで構成される。 - **ADG(Alert Dependency Graph)**: サービス依存グラフ(SDG)から自動生成するアラート間の中間グラフ。ドメイン知識不要で構築可能。 - **Alert2Vec**: BERT + 浅い MLP でアラートのマルチモーダルな属性を次元 100 のベクトルに変換するモジュール。 - **CPGAT(Causality Prediction Graphical Attention Network)**: ADG の各エッジに非対称アテンション因果スコアを割り当て、アラート因果グラフ(ACG)を生成する GNN。 - **DAGNN(Dispersing and Aggregating Graph Neural Network)**: ACG 上で分散集約構造・自己残差構造・自己ループ注意を組み合わせて根本原因確率を推定する GNN。 ## 性能 - 大規模 EC 本番データ(5,000 サービス、785 件の障害)で top-1 83.9% / top-3 96.8% を達成。 - 手作業ルールを要する Groot を top-1 精度で上回る。 - CPU のみで平均推論時間 2 秒/障害。 - 訓練データ 3 ヶ月での早期起動性能が Groot より優れる。 - DejaVu 公開データセットで top-1 精度を +24.8%(A1)・+15.7%(A2)改善。 ## 関連 - ソース: [[@2024__CCGRID__AlertRCA - Causality Enhanced Graph Representation Learning for Alert-Based Root Cause Analysis]] - 開発者: [[Zhaoyang Yu]] / [[Changhua Pei]] / [[Dan Pei]] / [[Qianyu Ouyang]] - 所属: [[Tsinghua University]] / [[BNRist]] / CNIC/CAS([[Changhua Pei]]) / Stony Brook University / [[Huawei Technologies]] / eBay Inc. - 概念: [[根本原因分析]] / [[因果推論ベースRCA]] / [[グラフニューラルネットワーク]] / [[アラート管理]]