アラートランキング - yuuk1's Digital Garden

# アラートランキング ## 定義アラートランキング(Alert Ranking)は、多数発火するアラートを「真陽性確率」「重要度」「アクショナビリティ」等の基準で順序付けて OCE に呈示し、対応すべきアラートを最初に分析できるようにする技術。[[アラート管理]] の 5 介入点(抑制/フィルタリング/集約/ランキング/RCA)の 4 番目に位置する。ランキングは (1) アラート単体の重要度判定(severity ranking)と (2) アラートパターン(攻撃シナリオ・障害伝播パターン)の特定の 2 目的を含む。 ## 横断的知見 - **3 ルーツ系統対照**: [[@2009__ICAC__Ranking the Importance of Alerts for Problem Determination in Large Computer Systems|Jiang+ ICAC2009]] は不変条件(NTV: Normal Traffic Value)ピアレビューによる教師なしランキングで、アラートの「正常範囲からの逸脱」を統計的に評価する。[[@2018__CIKM__Collaborative Alert Ranking for Anomaly Detection|CAR(CIKM2018)]] は Pitman-Yor 階層ベイズ + エンティティ埋め込みの統一最適化で「個別アラート重要度」と「攻撃シナリオの完全性」を同時ランキングする教師なし手法。[[@2020__ISSRE__AlertRank - Automatically and Adaptively Identifying Severe Alerts for Online Service Systems|AlertRank(ISSRE2020)]] は XGBoost incremental learning(Resolution Record を弱教師信号として使う)で教師ありランキングを実現する。「教師あり vs 教師なし」「最適化 vs 探索」「単一ドメイン vs 汎用」軸で対照的進化。(Source: [[@2009__ICAC__Ranking the Importance of Alerts for Problem Determination in Large Computer Systems]] §3–5, [[@2018__CIKM__Collaborative Alert Ranking for Anomaly Detection]] §3–4, [[@2020__ISSRE__AlertRank - Automatically and Adaptively Identifying Severe Alerts for Online Service Systems]] §3) - **CAR は個別アラートとパターンを同時にランキング**: Pitman-Yor 前置木モデルで多段攻撃シナリオ(MLS/SNO/BOT/EEE/DAV/DCP)の復元精度 ROC-AUC 0.998 を達成し、後続の AlertRCA(2024)が「アラートだけで RCA」を実現する礎を築いた。個別アラートのランキング(entity-based ranking)と攻撃シナリオのランキング(scenario-based ranking)を同じ確率モデルで統一した点が方法論的に特徴的。(Source: [[@2018__CIKM__Collaborative Alert Ranking for Anomaly Detection]] §4) - **教師なし系の不利は「ソフトウェア変更への適応性」**: 教師なし(Jiang+/CAR)は invariant・パターン学習を**ある時点**で行うため、システム構成が変わると劣化する。AlertRank の incremental learning はこの適応性で勝る。逆に AlertRank はラベル(Resolution Record)の存在を前提とし、新規環境では cold-start という弱点を抱える。(Source: [[@2020__ISSRE__AlertRank - Automatically and Adaptively Identifying Severe Alerts for Online Service Systems]] §4–5) - **TraceArk(ICSE-SEIP2023)が「アクショナビリティ」軸を導入**: 既存ランキングは severity 中心だが、[[@2023__ICSE-SEIP__TraceArk - Towards Actionable Performance Anomaly Alerting for Online Service Systems|TraceArk]] は impact + interpretability の 2 軸で「実行可能なアラート」を定義する。マイクロサービスのトレースデータを活用して「どのサービスがどの程度影響を受けているか」を可視化し、Microsoft Exchange 本番 4 ヶ月で適合率 0.9068 を達成。これはランキングの目的関数を「severity」から「actionability」に拡張した転換で、[[アクショナブルアラート]] 概念との接続点となる。(Source: [[@2023__ICSE-SEIP__TraceArk - Towards Actionable Performance Anomaly Alerting for Online Service Systems]] §3–5) ## 未解決の問い - 3 ルーツ系統(教師なし invariant、教師なし統一最適化、教師あり ML)を同一データセットで定量比較した研究は未着手。それぞれが「どの障害タイプ・どの規模のシステム」で優位かの系統的整理がない。 - 教師なし → 教師あり → アクショナビリティの直列パイプラインで本番運用された事例の文献的痕跡が皆無。AlertRank の incremental learning と TraceArk の impact 評価を組み合わせた適応型アクショナブルランキングは未提案。 - CAR の Pitman-Yor 前置木モデルはクラウド SRE のカスケード障害パターン(APT とは異なる)にも適用できるか? 攻撃シナリオ向けに設計されたパターン木が、障害伝播の「根本原因 → 影響拡大」という方向性の異なるパターンを捉えられるかは未検証。 ## 関連 - 親概念: [[アラート管理]] - 兄弟: [[アラート集約]]・[[アラートストーム]]・[[アクショナブルアラート]]・[[アラートインシデント分析]] - 関連手法: CAR(CIKM2018)・AlertRank(ISSRE2020)・TraceArk(ICSE-SEIP2023) - 一方向参照: [[structures/LLM4SRE - MOC]] ## 出典 - [[@2009__ICAC__Ranking the Importance of Alerts for Problem Determination in Large Computer Systems]] §3–5(不変条件 NTV ピアレビュー) - [[@2018__CIKM__Collaborative Alert Ranking for Anomaly Detection]] §3–4(Pitman-Yor 階層ベイズ・攻撃シナリオランキング) - [[@2020__ISSRE__AlertRank - Automatically and Adaptively Identifying Severe Alerts for Online Service Systems]](XGBoost incremental・Resolution Record 弱教師) - [[@2023__ICSE-SEIP__TraceArk - Towards Actionable Performance Anomaly Alerting for Online Service Systems]](impact + interpretability・actionability 軸)