# GRLIA
GRLIA(Graph Representation Learning-based Incident Aggregation)は、[[Huawei Cloud]] の大規模オンラインサービス向けに提案されたオンラインインシデント集約フレームワークである。EVT による障害バースト検知、KPI とインシデント集合の類似度による障害影響グラフ補完、DeepWalk/Word2Vec 型のインシデント種別表現学習、コサイン類似度とトポロジ距離によるオンライン集約から構成される。(Source: [[@2021__ASE__Graph-based Incident Aggregation for Large-Scale Online Service Systems]])
Huawei Cloud の Networking サービスの 2020 年 5〜11 月本番データで評価され、インシデント集約 NMI は Dataset1/2/3 で 0.831/0.866/0.912 を達成した。実運用では Huawei Cloud のインシデント管理システムに組み込まれ、2020 年 11 月の 26 障害で平均障害対応時間を過去 3 か月比 18.6〜24.8% 短縮した。(Source: [[@2021__ASE__Graph-based Incident Aggregation for Large-Scale Online Service Systems]])
## 関連
- ソース: [[@2021__ASE__Graph-based Incident Aggregation for Large-Scale Online Service Systems]]
- リポジトリ: [[OpsPAI]]
- 組織: [[Huawei Cloud]] / [[The Chinese University of Hong Kong]]
- 概念: [[アラート集約]] / [[インシデント管理]] / [[サービス依存グラフ]]