# アラート相関
## 定義
アラート相関(alert correlation)は、分散システムの障害発生時に同時多発するアラート群から、サービス間の依存関係やメトリクスの時間的パターンを用いて根本原因のサービスを推定する取り組みである。マイクロサービスアーキテクチャでは 1 つの障害が連鎖的にアラートを引き起こすため、「干し草の中の針」問題を解決して MTTR の短縮と誤エスカレーションの削減を目指す。
LinkedIn の実装(AC Engine)では、Callgraph(サービス依存グラフ)からエンドポイント間の関係を取得し、Autoalerts からのアラートと相関を取って根本原因候補を推定する。推定結果は Confidence・Severity スコア付きで Slack・Iris・Web UI に配信される。([[@2021__SREcon21__Spike Detection in Alert Correlation at LinkedIn]] p.10–12)
## スパイク分離の課題
アラート相関は依存関係ベースで根本原因を推定するが、推定結果に一時的なスパイク(統計的外れ値だが実際の障害ではないレイテンシ急増)が含まれうる。「相関は因果を意味しない」(p.16)という原則のとおり、相関結果をそのまま信頼すると誤エスカレーションにつながる。LinkedIn では修正 Z スコア(MAD ベース)による外れ値検知を後段フィルタとして組み込み、スパイクと真のアラートを分離した。
## 横断的知見
- **アラート相関の出力フィルタリングは denoise の一形態だが、技術的アプローチが異なる**: LinkedIn のスパイク検知は時系列メトリクスの統計的外れ値判定(修正 Z スコア)で相関結果をフィルタリングするのに対し、[[AlertGuardian]]([[@2025__ASE__AlertGuardian - Intelligent Alert Life-Cycle Management for Large-scale Cloud Systems]])はグラフモデル(GraphGuardian)+ 仮想ノイズノード + 属性匿名化でアラートそのものを denoise する。前者は相関結果の信頼度を後段で検証し、後者は相関の入力段でノイズを除去する——介入点が異なるが、いずれも「誤エスカレーション削減」という同じ目標に向かう。(Source: [[@2021__SREcon21__Spike Detection in Alert Correlation at LinkedIn]], [[@2025__ASE__AlertGuardian - Intelligent Alert Life-Cycle Management for Large-scale Cloud Systems]])
- **「ML なしの単純な統計手法で十分」という知見は、検知/denoise 段で軽量手法が産業で選択される傾向の一例である**: LinkedIn が ML を使わず修正 Z スコアで 30–40% のトイル削減を達成した事実は、[[AlertGuardian]] が denoise 段に LLM でなく軽量グラフモデルを選ぶ判断、[[Minder]] がメトリクス類似度で故障を検知する判断と同じ「検知/denoise の段は軽量手法が有利」という産業の収束した選択に属する。(Source: [[@2021__SREcon21__Spike Detection in Alert Correlation at LinkedIn]], [[@2025__ASE__AlertGuardian - Intelligent Alert Life-Cycle Management for Large-scale Cloud Systems]])
## 未解決の問い
- LinkedIn のスパイク判定ルール(「5 連続スパイク + 70% 同傾向 = REAL ALERT」)の閾値はどう決められたか。閾値の感度分析やサービス種別ごとの最適値は公開情報からは不明。
- 評価期間が約 5 日間・193 件と短い。長期運用でのスパイク/REAL ALERT 比率の安定性、季節変動やデプロイ起因の偽陰性率は未検証。
- アラート相関の出力に対する後段フィルタ(本発表)と入力段 denoise([[AlertGuardian]])は組み合わせ可能か。両段を併用したときの効果は加算的か、重複するか。
## 関連
- ソース: [[@2021__SREcon21__Spike Detection in Alert Correlation at LinkedIn]]
- 概念: [[異常検知]] / [[アラート管理]] / [[根本原因分析]] / [[アクショナブルアラート]]
- エンティティ: [[LinkedIn]] / [[Nishant Singh]] / [[AlertGuardian]]
## 出典
- [[@2021__SREcon21__Spike Detection in Alert Correlation at LinkedIn]](p.10–12 AC Engine アーキテクチャ、p.19 修正 Z スコア、p.24 判定ルール、p.28 評価結果)