# アラート管理
## 定義
アラート管理(Alert Management)は、モニタリングシステムが生成した raw alert 群を解析・整理して、(1) 関連アラートを束ねて分析負荷を下げる **alert correlation**、(2) 1 オペレータが捌けない規模のアラート爆発に対処する **alert storm handling**、(3) 重要・真のアラートだけをチケット化対象として識別する **alert determination** の 3 プロセスに分割される、[[インシデント管理]]の上流工程である。Yu+ JNCA2024 はこの 3 プロセスを統一 AIM(Alert and Incident Management)アーキテクチャ Fig.5 の前半に据え、ITSM/ITIL の文脈で「event ⊃ alert、severe alert + user complaint → incident」という関係(Fig.3)で incident と区別する。(Source: [[@2024__JNCA__A survey on intelligent management of alerts and incidents in IT services]])
## 横断的知見
- **alert と incident を別ライフサイクルとして扱う設計の利得**: Microsoft の慣行は「全アラートを incident として扱う」だが、Yu+ JNCA2024 は alert と incident を [[インシデント管理]] とは別の上流ライフサイクルとして明示的に分離する。これにより「alert で減らせる工数は incident に送らない」設計余地が生まれ、alert correlation で件数を縮約 → storm handling で異常事態を吸収 → determination で重大性を判定、と段階的に絞ったうえで incident management に渡す処理経路が成立する。同じ Tsinghua / Dan Pei 系統の [[@2025__ASE__AlertGuardian - Intelligent Alert Life-Cycle Management for Large-scale Cloud Systems]] が AlertGuardian で「denoise→summary→rule refinement」を一気通貫で実装した方向と一致する。(Source: [[@2024__JNCA__A survey on intelligent management of alerts and incidents in IT services]], [[@2025__ASE__AlertGuardian - Intelligent Alert Life-Cycle Management for Large-scale Cloud Systems]])
- **alert determination は 3 種の直列統合で効く**: Yu+ JNCA2024 は alert distinguishing(真偽判定)・severe alert identification(重要度ランキング)・alert-based incident identification(アラート群→インシデント抽出)を独立に分類しつつ、Fig.7 で「distinguish で偽除去 → severe ranking と incident identification を並列適用」という統合パイプラインを将来方向として提示する。3 系統が直交であり個別研究で進化してきた事実が、3 段直列という結合余地を裏付ける。AlertRank(Zhao+ 2020c の XGBoost ranking)・eWarn(Zhao+ 2020b の multi-instance learning + LIME)・Warden(Li+ 2021a)など個別研究は既に高度化しており、未着手なのは結合のみ。(Source: [[@2024__JNCA__A survey on intelligent management of alerts and incidents in IT services]])
- **alert correlation 3 系統の使い分け(attribute / dependency / hybrid)**: attribute-based は意味類似度を捉え storm 時にも履歴照合に効くが解釈性に欠ける。dependency-based(PC・Granger・MIC・Bayesian network・トポロジ)は依存関係で直近の問題像を可視化するが類似アラート連結ができない。hybrid(深層学習で意味+挙動を統合する OAS by Chen+ 2022b: ASR+ABR+ACT)は両シナリオに効くが大量のラベル付きデータを要求する。「リアルタイム概況」と「履歴類似度」のどちらが要件かで選択が割れる。(Source: [[@2024__JNCA__A survey on intelligent management of alerts and incidents in IT services]])
- **alert storm は industrial alarm flood とは桁違いの規模で、独立の研究対象**: ISA 18.2・EEMUA 191 が定める industrial alarm flood の基準は "10 alerts/10 分/operator" だが、IT サービスの service alert storm はこれと桁が違う(Zhao+ AAAI2020)。industrial flood 向けの sequence mining(PrefixSpan・DTW・fault template)を IT に転用するだけでは不足し、Zhao+ 2020a は EVT(extreme value theory)で適応的検知 + 3 段要約を行い、Li+ FSE2022 は incident-as-storm として LiDAR + COT + DeepIP を併用する。「桁違いの規模 = 別問題」という前提を共有することが設計の出発点になる。(Source: [[@2024__JNCA__A survey on intelligent management of alerts and incidents in IT services]])
- **rule refinement(アラート生成ルール改善)は alert determination 解析結果の "逆流" として実装できる**: Yu+ JNCA2024 §7.3.1 は false/missed alert の発生をアラートルール不適合の現れとみなし、alert determination の結果(false 識別・incidental incident 判定・manual ticket 由来の missed alert)を上流のアラートルール最適化に逆流させる方向を提示する。これは [[@2025__ASE__AlertGuardian - Intelligent Alert Life-Cycle Management for Large-scale Cloud Systems]] が同じ Tsinghua-Tencent 連携で実装した「rule refinement を含むライフサイクル一括」という後継研究と対応する。Tang+ 2013c の自動規則学習や Tang+ 2012/2013b の text classification + 履歴解析が下地。(Source: [[@2024__JNCA__A survey on intelligent management of alerts and incidents in IT services]], [[@2025__ASE__AlertGuardian - Intelligent Alert Life-Cycle Management for Large-scale Cloud Systems]])
- **Microsoft の "全アラートを incident として扱う" 設計は、後段に高精度の incidental 判定器を置くことで成立する**: Yu+ JNCA2024 Table 4 は「Microsoft は全アラートを incident として扱う」と指摘し Chen+ 2020a/c の incident 分析を実質的なアラート分析として位置づけた。実際 Chen+ 2020c に当たる [[@2020__ASE__How Incidental are the Incidents - Characterizing and Prioritizing Incidents for Large-Scale Online Service Systems]] は、報告された「incident」の 50.32% を後処理で incidental と判定する [[DeepIP]](attention 付き CNN・AUC 0.808)を組み込むことでこの設計を支えている。Tsinghua/Tencent 系統([[AlertGuardian]])が「上流の rule refinement」で 1,174 提案→375 受容(32%)とノイズ生成自体を抑えるのに対し、Microsoft 系統(Chen+ 2020c)は「下流の優先順位付け」で incidental 確率の昇順 ranking でノイズを後回しにする——同じ目的に対して上流アプローチと下流アプローチが並走する構図。Microsoft 系統は alert/incident を一本化する代償として後段の判定器に強い責任を課している。(Source: [[@2024__JNCA__A survey on intelligent management of alerts and incidents in IT services]], [[@2020__ASE__How Incidental are the Incidents - Characterizing and Prioritizing Incidents for Large-Scale Online Service Systems]], [[@2025__ASE__AlertGuardian - Intelligent Alert Life-Cycle Management for Large-scale Cloud Systems]])
- **false alarm という独立カテゴリの存在は「モニタ自身の不具合」が独立の介入対象であることを示す**: [[@2020__ASE__How Incidental are the Incidents - Characterizing and Prioritizing Incidents for Large-Scale Online Service Systems]] の 6 カテゴリ taxonomy のうち false alarm(平均 7.05% — Table 1 から 11.11+3.75+6.22+5.55+8.84 を 5 で割った推定)は「monitor の閾値設定や検査周期の問題で本来鳴ってはいけない alert」を指し、本論文の Example 7 は「データは 3 分ごと更新だが monitor は 1 分ごとチェックしていた」典型例を示す。AlertGuardian の rule refinement(上流のルール改善)はまさにこの false alarm を上流で潰すフィードバックループであり、Chen+ 2020c が「下流で判別する」DeepIP を、AlertGuardian が「上流で発生抑止」する rule refinement を提案したのは、同じ問題(monitor 設定の不具合)に対する上流・下流の双対解。([[異常検知]] の偽陽性問題と接続)。(Source: [[@2020__ASE__How Incidental are the Incidents - Characterizing and Prioritizing Incidents for Large-Scale Online Service Systems]], [[@2025__ASE__AlertGuardian - Intelligent Alert Life-Cycle Management for Large-scale Cloud Systems]])
- **静的閾値の脱却 + autonomous alert handlers という Google 流の 2 段アーキテクチャ**: Google SRE AI は (1) **異常検知**を時系列基盤モデル([[TimesFM]] が例示)に委ね、historical signals から「顧客指向 SLO」を予測する。(2) 検知された anomaly が alert を起こすと、**SRE AI alerting agent** が group / pre-process / enrich する。(3) enrich された alert は **autonomous AI alert handlers** に流れ、多くを自律処理・緩和する。この「動的閾値 + alerting agent + autonomous handler」の 3 段は、Tsinghua/Tencent 系統の denoise→summary→rule refinement([[@2025__ASE__AlertGuardian - Intelligent Alert Life-Cycle Management for Large-scale Cloud Systems]])と方向は重なるが、**上流に検知層の基盤モデルを置く点**と**下流を autonomous handler に直結させる点**が新しい。両者を比較すると、AlertGuardian は alert 生成 rule 自体の改善で上流を狭くする方向、Google は anomaly detection を時系列基盤モデルに置き換えて上流の「閾値設計」自体を不要にする方向、と読める。(Source: [[@2026__Google Cloud Blog__AI in SRE - Where Google is Deploying Agentic AI to Improve Operations]], [[@2025__ASE__AlertGuardian - Intelligent Alert Life-Cycle Management for Large-scale Cloud Systems]], [[TimesFM]])
## 未解決の問い
- LLM 時代の AIM 研究(FLASH・LLexus・StepFly・AlertGuardian など 2024-2026)は Yu+ JNCA2024 の 8 プロセス分類(alert: correlation/storm/determination、incident: representation/linking/triage/mitigation/resolution)をどこまで保ったか? 計画フェーズ前置(LLexus)や TSG オーケストレーション(StepFly)は既存分類のどのセルにも収まらないように見える。
- alert determination 3 種の直列統合(Yu+ 2024 Fig.7)は実装事例があるか? AlertRank・eWarn・Warden 個別研究はあるが、distinguish → ranking + incident identification の 3 段一括の本番運用報告は本サーベイ提示時点で未確認。
- "storm 検知 + 3 段要約"(Zhao+ AAAI2020)は streaming 解析と triggered 解析の併用というサーベイの将来方向に進んだか? AlertGuardian の denoise が streaming 寄りに見える一方、storm 専用の triggered パスは引き続き手薄。
- alert correlation の hybrid 系(OAS など)が要求する大量ラベル付きデータの取得問題は、LLM による weak supervision で緩和できるか?
- alert と incident を分離する設計(Yu+ 2024)と Microsoft の合一設計(Chen+ 2020a-c など)の優劣を、同一データセット上で実証比較した研究はまだない。
- [[@2020__ASE__How Incidental are the Incidents - Characterizing and Prioritizing Incidents for Large-Scale Online Service Systems]] の 6 カテゴリ taxonomy(by design / customer error / won't fix / unable to reproduce / transient / false alarm)は「下流での判別」を前提に設計されている。同じカテゴリを「上流のルール設計」に翻訳すると(例: false alarm → monitor の閾値・周期見直し、transient → リトライ・自動回復許容窓設計、unable to reproduce → 観測解像度不足)、上流介入の設計指針として AlertGuardian の rule refinement に直接組み込めるか。
## 関連
- 上流: [[テレメトリ]]・[[オブザーバビリティ]](monitoring system が生成)
- 下流: [[インシデント管理]](severe alert + user complaint → incident)
- 横並び: [[AIOps]](AIM は failure management のサブセット)
- ソース: [[@2024__JNCA__A survey on intelligent management of alerts and incidents in IT services]]、[[@2025__ASE__AlertGuardian - Intelligent Alert Life-Cycle Management for Large-scale Cloud Systems]]、[[@2025__ASE__LogPilot - Intent-aware and Scalable Alert Diagnosis for Large-scale Online Service Systems]]、[[@2020__ASE__How Incidental are the Incidents - Characterizing and Prioritizing Incidents for Large-Scale Online Service Systems]]
- 親サーベイ: [[@2021__TIST__A Survey of AIOps Methods for Failure Management]]