アラーティング学術実務マップ

# アラーティング研究の学術/実務マップ — 年代別対照 ## 凡例 | 記号 | 意味 | 代表的な発表の場 | |------|------|-----------------| | **[A]** 学術 | 査読付き学術論文 | ICSE / KDD / ISSRE / ASE / SIGCOMM / VLDB / DSN / FSE ほか | | **[P]** 実務 | 査読なし実践報告 | SREcon / SRE Book / SRE Workbook / 企業ブログ / カンファレンス登壇 | | **[H]** 産業研究 | 産業界研究所による査読付き論文 | IBM Research / Microsoft Research / Google / Alibaba / Tencent × 大学 | > [H] は「産業 × 学術ハイブリッド」。問題意識は現場から来るが、形式は学術論文であり評価も再現可能な実験で行われる。[P] との違いは「実験の再現可能性と査読」、[A] との違いは「本番データと現場知見の直接調達」にある。 --- ## 年代別マップ ### 1980 年代〜2000 年代前半 — 理論的下地と ITSM の成立 ``` 学術 [A] 実務 [P] ──────────────────────────────────────────────────────── Bainbridge 1983 [P] (Ironies of Automation) ← 自動化と人間疲弊の逆説。後のアラート疲労論の祖。 Gray 1985 [P] (Why Do Computers Stop) ← 商用システムの障害分類基盤。 Tandem 社内報告。 ISA 18.2 / EEMUA 191 [P] ← 「10件/10分」アラーム標準化 (プロセス制御業界)。 Oppenheimer+ 2003 [P] (Why Do Internet Services Fail) Hamilton 2007 [P] (Internet-Scale Services) ← 大規模 Web サービスの運用知。 Bahl+ 2007 [H] (SIGCOMM — NetMedic) ← MS Research。依存性推論によるネットワーク障害診断。 ``` **観察**: この時代は**実務問題の定義**と**理論的枠組みの構築**が先行し、アラーティング専用の学術研究はまだ存在しない。「アラート」という言葉も使われておらず、「障害通知」「監視設定」として語られる。 --- ### 2009〜2014 年 — 機械学習が「ノイズ抑制」と「ランキング」を担い始める ``` 学術 [A] / 産業研究 [H] 実務 [P] ──────────────────────────────────────────────────────── Jiang+ 2009 ICAC [H] (NEC Labs America) ← アラートランキング第1ルート。「不変条件ネットワーク」教師なし。 Tang+ 2012 NOMS [H] (IBM T.J. Watson + Florida International Univ.) ← 非アクション可能アラート75%削減。数学的保証 (Theorem 1)。 Lin+ 2014 KDD [H] (IBM Research) ← 5M アラート+67k インシデントのクラスタリング。半構造/非構造を別手法で処理。 ``` **観察**: この時代は学術・産業研究が**問題提起も解法設計も**担う。実務側の発表はほぼ見当たらない。問題設定はエンタープライズ IT(SNMP/Tivoli 系)に限定されており、クラウドネイティブの文脈はまだない。 --- ### 2015〜2018 年 — 時系列基盤、SLO 駆動、実践者エコシステムの爆発 ``` 学術 [A] / 産業研究 [H] 実務 [P] ──────────────────────────────────────────────────────── Gorilla 2015 VLDB [H] Google SRE Book 2016 [P] (Facebook) ← 4ゴールデンシグナル ← インメモリ TSDB。アラートが「症状ベース呼び出し」「時系列クエリ上のルール」に「エラーバジェット」なる前提基盤を作る。 → 業界規範語彙を確立。 Siffer+ 2017 KDD [A] Treat 2016 SREcon [P] (SPOT/DSPOT — EVT) ← 発火前の4問ガバナンス ← 極値理論によるストリーム (ビジネス影響/修復/通知先/ 異常検知。理論的に堅牢。予防可能性)。自動修復結合の初期形。 Lin+ 2018 CIKM (CAR) [A] Rabenstein 2016 SREcon [P] ← ランキング第2ルート。 ← 「ページは症状・差し迫った Pitman-Yor 階層ベイズ + 問題のみ」。複雑な ML を統一凸最適化。ROC-AUC 0.998。ページ経路に置くなという反自動化論を明言。 Wilkinson 2017 SREcon [P] ← 監視保守コストは劣線形に。 SLI/SLO/SLA 3層定義。 Chen (Baidu) 2017 SREcon [P] ← 85% 削減。アテンション率 (夜間の閲覧ログ)で重要度補正。 Jalleda (Zynga) 2017 [P] ← アラートバジェット制。 90% 削減。インセンティブ設計アプローチの原点。 Bostock (Cloudflare) 2017[P] ← 116 PoP 分散 Prometheus。「監視と対象を同じ障害ドメインに置く」原則。 Wilkinson 2018 SREcon [P] Google SRE Workbook 2018 [P] ← multi-window multi-burn-rate → SLO 駆動アラーティングの業界標準化。 Alibaba (Xinchi) 2018 [P] ← 5ゴールデンエレメント定義。 CMDB Hammurabi + 変更情報重ね合わせ (障害の70%が変更起因)。 ``` **観察**: 2016〜2018 年は**実務側が爆発的に発信**し、規範語彙を作った時代。学術はこの規範を静かに吸収し、2020 年以降の論文がことごとく「症状ベース」「SLO 違反」を前提に置く。**問題を定義したのは実務、解法を形式化したのは学術**という役割分業がここで確立する。 --- ### 2019〜2021 年 — 「通知先ルーティング」と「相関後フィルタリング」の各論化 ``` 学術 [A] / 産業研究 [H] 実務 [P] ──────────────────────────────────────────────────────── Mineiro (Zalando) 2019 [P] SREcon19 EMEA ← Adaptive Paging。分散トレースで「誰を呼ぶか」を動的ルーティング。介入点に「通知先ルーティング」を追加した最初の本番実装。 Zhao+ 2020 ICSE-SEIP [H] (AlertStorm, Tsinghua/ Tencent/China EverBright) ← EVT でストーム検知 + 4段要約。調査工数98%削減。 AlertRank 2020 ISSRE [H] (Tencent) ← ランキング第3ルート(教師あり)。 Resolution Record 自動ラベル付け + XGBoost incremental learning。 DEAR 2020 CLOUD [A] (Univ. of Stuttgart) ← 評価インフラ層介入。BET 中間表現で TTI を 27秒→370ms に。 DeepIP 2020 ASE [H] (Microsoft) ← アテンション付き CNN で偶発的インシデントを下流判定。「上流ルール改善 vs 下流判定」の対照軸を明示。 OAS 2022 ICSE [A] (Fudan Univ.) ← 深層学習によるアラート集約。 Fudan 三部作の第1作。 Singh (LinkedIn) 2021 [P] SREcon21 ← MAD ベース修正 Z スコアでスパイクを除去。36.4% を除去、偽陽性 < 1%、トイル 30-40% 削減。 ML 非依存の軽量統計手法。 ``` **観察**: 実務側は「誰に通知するか」「スパイクを後段で除く」という**既存の介入点の隙間**を埋める。学術側は「どう集約するか」「どう評価インフラを改善するか」という**手法本体**を深掘りする。この時期から **Tencent / Alibaba 系の産業研究 [H]** が急増し、実本番データで訓練・評価する論文が支配的になる。 --- ### 2022〜2023 年 — アンチパターン経験論、動的グラフ、QoA の定量化、人間的介入の独立軸化 ``` 学術 [A] / 産業研究 [H] 実務 [P] ──────────────────────────────────────────────────────── Yang+ 2022 DSN [H] Zadka 2022 SREcon [P] (CUHK + Huawei Cloud) ← アラート品質をコスト(真/偽/ ← 400万件+18OCE調査から欠落)で定量化。欠落アラームを 6アンチパターン同定。品質モデルに含める強調。 QoA 3軸枠組みを将来提案。 DyAlert 2023 ASE [H] Cloudflare pint 2022 [P] (Fudan × Alibaba) ← Prometheusルールの「静かな ← 動的グラフ表現学習(AMDG 故障モード」体系化。CI + デーモン異種 k-GNN + GRU)。で発火前健全性保証。 F1+0.259 向上。 TraceArk 2023 ICSE-SEIP [H] Smith (Campspot) 2022 [P] (Microsoft Exchange) ← アラートポリューション失敗事例。 ← アクショナビリティを「影響「監視を増やす=安全」バイアスの + 解釈可能性の2軸」に拡張。診断。本番4ヶ月適合率0.9068。 Ganatra+ 2023 ESEC/FSE [H] Cruz 2023 SREcon [P] (Microsoft) ← 認知的徒弟制。Alert Triage ← 検知失敗の根本原因実証。 Hour of Power(週1h×4ロール)。 Missing monitor/alert = 40.41%。学習自体を目標とする 27.25% アウテージ発展。第3のアプローチ(技術でもインセンティブでもない)。 Voutsas 2023 JCC [H] 池田将士 2023 SRE NEXT [P] (Netdata 本番データ) ← Warning アラート発火時の ← クリック行動を弱教師信号に。証拠収集自動化(prepalert)。 RF フィルタ、精度70%・7.3ms。 5.5層「調査準備」介入点を埋める。岩堀 2023 SRE NEXT [P] ← Runbook で Why/背景/判断材料を保存。アラート追加前の社会的合意を制度化。 ``` **観察**: 2022〜2023 年は**実務と学術が同じ課題を異なる方法で同時に捉えた**時代。Yang+(学術)が QoA 3 軸を定義し、Zadka(実務)がコストモデルを独立に構築した——両者は同年に出た相補的枠組みである。同様に、Ganatra+(学術)が「監視不在」問題を実証し、Cruz(実務)が「人間の判断力育成」という別次元を追加した。**学術と実務の対話密度が最高潮に達した時期**。 --- ### 2024 年 — LLM 第 1 波: 役割分化と「上流ルール改善」への回帰 ``` 学術 [A] / 産業研究 [H] 実務 [P] ──────────────────────────────────────────────────────── COLA 2024 ICSE-SEIP [H] MonitorAssistant 2024 [H] (CUHK + Huawei Cloud) (ESEC-FSE) ← LLM を SOP 解読器として使用。 ← クラウドサービス監視の高頻度ペアは統計、低頻度は LLM。オーサリング支援を LLM で簡素化。 F1 > 0.9。 Bhukar+ 2024 ICSE-SEIP [H] (IBM Research) ← 動的アラート抑制。教師なし統計で X-out-of-Y を個別最適化。教師あり上界に到達。61.53% 削減。 AlertRCA 2024 CCGrid [H] ← CPGAT + DAGNN でアラートのみから RCA。top-1 83.9%。 SuperAgg 2024 ISSRE [A] (NUDT) ← HPC 固有の連続的アラート過負荷を独立カテゴリとして提示。 Yu+ 2024 JNCA survey [A] ← AIM 8プロセス体系化。本領域初の包括的サーベイ。 ``` **観察**: 2024 年は**学術・産業研究が LLM をどこに置くか**を急速に整理した年。LLM を「SOP 解読器 / SDG マッパー / 監視オーサリング支援」の 3 役割に分化。実務側の新規発表は少なく、**産業研究 [H] が実務の役割を吸収**しつつある。 --- ### 2025〜2026 年 — LLM 第 2 波と Agentic への受け渡し ``` 学術 [A] / 産業研究 [H] 実務 [P] ──────────────────────────────────────────────────────── AlertGuardian 2025 ASE [H] Google AI in SRE 2026 [P] (Sun Yat-sen + Tencent) ← 3段アーキテクチャ明示。 ← ライフサイクル全段処理。 TimesFM→SRE alerting agent ルール改善受容率 32%(375件採用)。 → autonomous alert handlers。閾値設計不要化へ。 SkyNet 2025 SIGCOMM [H] Datadog Bits AI SRE 2026 [P] (Alibaba Cloud) ← 自律インシデント調査エージェント ← LLM を意図的に不採用。を商用サービスとして公開。重大障害 (年数回) にはコンテキスト超過+ハルシネーションで適用不可能と結論。 LogPilot 2025 ASE [H] VOCE 2025 FASE [H] (Company A の 827 インシデント) ← 「最初のアラート=根本原因」が 45.34%に過ぎないことを実証。 ProAlert 2025 FSE [H] (Fudan 三部作完結) ← 教師なし伝播パターン学習。 S1 VCR 93.53%、200+alerts/sec。 Harp 2026 NSDI [H] (Tencent) ← VPC 障害検知+迂回制御の統合自律対応を本番運用。 SREGym / Cloud-OpsBench [A/H] 2026 arXiv ← agentic SRE 評価ベンチマーク整備。 ``` **観察**: 2025〜2026 年は**学術・産業研究が LLM の限界を正直に示す**時代になった。SkyNet は「LLM 不採用の判断」を論文として発表し、Google は「閾値設計不要化」という大転換を実務報告として公開した。実務と学術の役割が**再び逆転しつつある**——次の大きな方向は実務が先に示している。 --- ## 通時的な役割分担パターン ``` 問題の発見 ──→ 形式化 ──→ 解法設計 ──→ 評価 ──→ 実用化 ↑ ↑ ↑ ↑ ↑ [P] 実務 [A]学術 [H]産業研究 [A/H] [P] 実務 (早い・現場) (厳密) (最多・最速) (査読) (デプロイ) ``` | フェーズ | 主役 | 代表事例 | |----------|------|---------| | 問題の命名 | **実務 [P]** | 「アラート疲労」「アラートストーム」「アラートポリューション」はすべて SREcon 語彙 | | 規範語彙の確立 | **実務 [P]** | 4 ゴールデンシグナル・症状ベース・SLO・エラーバジェット (Google SRE Book) | | ML 手法の設計 | **学術 [A]** | ランキング 3 ルーツ・EVT・階層ベイズ・GNN | | 大規模実証 | **産業研究 [H]** | Tencent / Huawei / Microsoft の本番データ論文群 | | インセンティブ設計 | **実務 [P]** | アラートバジェット制 (Jalleda 2017) | | 人的能力育成 | **実務 [P]** | 認知的徒弟制 (Cruz 2023) | | 限界の明示 | **産業研究 [H]** | SkyNet「LLM 不採用」判断 (2025) | | 次世代方向の提示 | **実務 [P]** | agentic SRE・閾値不要化 (Google 2026) | --- ## 未検討の学術/実務の断絶 1. **Yu+ JNCA2024 の AIM 分類に非技術的介入が含まれない** — インセンティブ設計・認知的徒弟制・Runbook ガバナンスは実務 [P] にしか存在せず、学術の体系化対象に入っていない。 2. **実務の 85〜90% 削減数字が再現されていない** — Jalleda (アラートバジェット) / Chen (技術的 4 施策) の成果は査読なし発表であり、統計的に再現された学術論文は存在しない。 3. **産業研究 [H] の本番データは非公開** — Tencent / Huawei / Alibaba の実験データはほぼ公開されておらず、独立再現が困難。学術 [A] が形式化した手法と実務 [P] が報告する削減率の橋渡しができていない。 4. **SkyNet の「LLM 不採用閾値」が未定量化** — コンテキストウィンドウ拡張で動的に変化するが、その境界を理論化した学術研究はまだない。 --- ## 関連 - 元資料: [[アラーティングの進歩-年代別]] - 概念ページ: [[アラート管理]] / [[アラート疲労]] / [[アラートポリューション]] / [[Quality of Alerts]] / [[agentic SRE]] - 外部参照: [[AIOps]] / [[インシデント管理]]