# AlertRank [[Tsinghua University]] / [[BNRist]] の [[Nengwen Zhao]]・[[Dan Pei]] らが提案した、オンラインサービスシステムにおける重要アラート識別フレームワーク(ISSRE 2020)。[[China Construction Bank]] に本番展開済み。 ## 概要 重要アラート識別を二値分類でなく**ランキング問題**として定式化した点が独自性。XGBoost ポイントワイズランキングアルゴリズムを採用し、以下の 40 次元特徴量で各アラートに重要度スコアを付与する。 - **テキスト特徴量**: BTM(Biterm Topic Model)による 14 トピック + IDF エントロピー(15次元) - **時系列特徴量**: 頻度・季節性(ACF)・アラートカウント・到着間隔(7次元) - **アラート属性**: ルールベース重要度・発生時刻・種別(5次元) - **KPI 異常特徴量**: LSTM による単変量・多変量予測誤差(13次元) ### 自動ラベル付け 解決記録(Resolution Record)を TF-IDF + k-means(k=7)でクラスタリングし、連続重要度スコアを手動ラベル付けなしに自動付与する。7クラスタのスコアは 0.0〜1.0 の範囲で、割合は「チケット化 2.1%、業務影響あり 3.8%…なし 65.1%」。(Source: [[@2020__ISSRE__AlertRank - Automatically and Adaptively Identifying Severe Alerts for Online Service Systems]]) ### インクリメンタル学習 動的なシステム変化(ソフトウェアアップグレード・設定変更等で新規アラートが出現)に対応するため、最新データで定期的にモデルを更新するインクリメンタル学習パイプラインを内蔵する。週次更新で F1 = 0.81、日次更新で F1 = 0.88 を達成(ソフトウェア変更後)。(Source: [[@2020__ISSRE__AlertRank - Automatically and Adaptively Identifying Severe Alerts for Online Service Systems]]) ## 性能 3データセット(各6ヶ月、37万〜43万件)での評価結果: - 平均 F1 スコア: **0.89**(rule-based 0.53、Bug-KNN 0.69 に対し大幅改善) - 調査必要アラート件数: rule-based 比約 20〜45% 削減 - 処理速度: 100件のアラートをランキングするのに約 2.4 秒 (Source: [[@2020__ISSRE__AlertRank - Automatically and Adaptively Identifying Severe Alerts for Online Service Systems]]) ## 関連 - ソース: [[@2020__ISSRE__AlertRank - Automatically and Adaptively Identifying Severe Alerts for Online Service Systems]] - 開発者: [[Nengwen Zhao]] / [[Dan Pei]] / Panshi Jin / [[Lixin Wang]] / [[Xiaoqin Yang]] / Rong Liu / [[Wenchi Zhang]] / [[Kaixin Sui]] - 所属: [[Tsinghua University]] / [[BNRist]] / [[China Construction Bank]] / [[BizSeer]] - 展開先: [[China Construction Bank]] - 概念: [[アラート管理]] / [[AIOps]] / [[Quality of Alerts]]