アラートフィルタリング - yuuk1's Digital Garden

# アラートフィルタリング ## 定義アラートフィルタリング(Alert Filtering)は、クラウドモニタリングシステムが生成した大量のアラートに対して、管理者が通知を受けるべきかどうかを自動的に判定し通知件数を絞り込む技術。[[アラート管理]] の alert determination フェーズに属し、閾値ベースの静的ルールに依存せず、管理者の過去のアクション履歴(クリック行動)を教師信号として学習する。 Voutsas+ JCC2023 はこの問題を初めて独立した研究課題として定義・定式化した([[@2023__JCC__Filtering Alerts on Cloud Monitoring Systems]] §I)。その核心は「管理者がそのアラートをクリック(対応)するかどうか」をバイナリラベルとし、アラート特徴量と管理者の平均的な行動(クリック率)を関連付けるデータ駆動型二値分類である。 ### アラートフィルタリングが必要な背景 - 通常のシステムでも 80〜100 種のアラートタイプ・4,000 メトリクスが存在する - 本番システムでは数百種のアラート・10,000〜20,000 メトリクスに達する - ルールベースのアラート設定は状況変化に追いつけず、静的ルール定義は実用的でない - 結果として管理者の受信トレイにはアラート疲労(alert fatigue)が生じる ## 横断的知見 - **フィルタリング(発火後のクリック行動)と抑制(発火前の統計学習)は弱教師学習で対をなす**: [[@2023__JCC__Filtering Alerts on Cloud Monitoring Systems|Voutsas+ 2023]] は OCE のクリック行動を弱教師信号として使う Random Forest フィルタを提案し、Netdata 実データで精度 70%・推論 7.3 ms を達成(§IV-A)。これに対し [[@2024__ICSE-SEIP__Dynamic Alert Suppression Policy for Noise Reduction in AIOps|Bhukar+ 2024]] は教師信号を一切使わず統計構造のみで X-out-of-Y ポリシーを学習する(§4)。両者は「ラベルなし運用」という制約下で別系統の解を提示する: クリック=弱教師、統計=完全教師なし。介入点も発火後と発火前で異なる。詳細は [[アラート抑制]] 参照。(Source: [[@2023__JCC__Filtering Alerts on Cloud Monitoring Systems]] §III, [[@2024__ICSE-SEIP__Dynamic Alert Suppression Policy for Noise Reduction in AIOps]] §4) - **クラウドモニタリングシステムの規模実測値**: Voutsas+ 2023 は Netdata エンジニアとの実測協力で「通常システムで 4,000 メトリクス・80〜100 種アラート、本番システムで 10,000〜20,000 メトリクス・数百種アラート」と報告(§I)。この規模感は [[@2024__ICSE-SEIP__Dynamic Alert Suppression Policy for Noise Reduction in AIOps|Bhukar+ 2024]] が想定するメトリクスドメインの規模と整合する。アラート種数の桁差(80 種〜数百種)は事業者単位の差ではなくフィルタリング/抑制の必要性そのものを決める。(Source: [[@2023__JCC__Filtering Alerts on Cloud Monitoring Systems]] §I) - **DEAR の「監視評価インフラ層」介入は発火後フィルタリングと独立**: [[@2020__CLOUD__DEAR - Distributed Evaluation of Alerting Rules|Mormul+ CLOUD2020]] は BET(Binary Expression Tree)中間表現でアラートルール評価を VM に自動配布し、集約による精度劣化と分散化による管理複雑性を同時に解消する**ルール評価場所**の介入を提示。TTI を最大 27 秒(集約間隔依存)から定値 ~370ms に短縮。これは Voutsas+ JCC2023(クリック行動 Random Forest)・Bhukar+ ICSE-SEIP2024(動的抑制)の「発火後フィルタリング/抑制」とは独立した「**発火前のセンサ精度向上**」介入で、5 介入点に**「監視評価」という上流ゼロ番目の介入点**を追加すべき。(Source: [[@2020__CLOUD__DEAR - Distributed Evaluation of Alerting Rules]] §3–4) ## 未解決の問い - クリック行動を弱教師信号に使うアプローチは、OCE のアラート疲れ・誤クリック・別タブ放置等のノイズに脆い。クリック+(処理時間 / 解決ステータス / SLO 違反フラグ)など複合シグナルへの拡張は未検証。 - フィルタリングは「通知すべきか」を判定するが、Voutsas+ 2023 は通知後の OCE 満足度・MTTR 改善は測定していない。フィルタが見逃したアラートのインシデント率はどう推定するか。 - Random Forest 単独で精度 70% に達しているが、近年の Gradient Boosting・LLM ベース分類器との比較が未着手。 - DEAR の評価場所分散と Bhukar+ の動的抑制を組み合わせた「ルール内容改善 × 評価場所最適化 × 動的抑制」3 層上流防御の理論的可能性は提示できるが、実装事例なし。 ## 関連 - 親概念: [[アラート管理]](alert determination フェーズの一形態) - 兄弟: [[アラート抑制]](発火前の統計学習)、[[アラート集約]](発火後のクラスタリング) - 関連問題: [[アラートアンチパターン]](アラートの品質問題)、[[Quality of Alerts]](評価軸) - クラウドモニタリング: [[クラウドモニタリング]](alert flooding の文脈) - ソース: [[@2023__JCC__Filtering Alerts on Cloud Monitoring Systems]]、[[@2024__ICSE-SEIP__Dynamic Alert Suppression Policy for Noise Reduction in AIOps]] ## 出典 - [[@2023__JCC__Filtering Alerts on Cloud Monitoring Systems]] §I(問題定義・背景)、§III(提案手法)、§IV(実験評価)