# アラーティング研究の学術/実務マップ — 年代別対照
## 凡例
| 記号 | 意味 | 代表的な発表の場 |
|------|------|-----------------|
| **[A]** 学術 | 査読付き学術論文 | ICSE / KDD / ISSRE / ASE / SIGCOMM / VLDB / DSN / FSE ほか |
| **[P]** 実務 | 査読なし実践報告 | SREcon / SRE Book / SRE Workbook / 企業ブログ / カンファレンス登壇 |
| **[H]** 産業研究 | 産業界研究所による査読付き論文 | IBM Research / Microsoft Research / Google / Alibaba / Tencent × 大学 |
> [H] は「産業 × 学術ハイブリッド」。問題意識は現場から来るが、形式は学術論文であり評価も再現可能な実験で行われる。[P] との違いは「実験の再現可能性と査読」、[A] との違いは「本番データと現場知見の直接調達」にある。
---
## 年代別マップ
### 1980 年代〜2000 年代前半 — 理論的下地と ITSM の成立
```
学術 [A] 実務 [P]
────────────────────────────────────────────────────────
Bainbridge 1983 [P]
(Ironies of Automation)
← 自動化と人間疲弊の逆説。
後のアラート疲労論の祖。
Gray 1985 [P]
(Why Do Computers Stop)
← 商用システムの障害分類基盤。
Tandem 社内報告。
ISA 18.2 / EEMUA 191 [P]
← 「10件/10分」アラーム標準化
(プロセス制御業界)。
Oppenheimer+ 2003 [P]
(Why Do Internet Services Fail)
Hamilton 2007 [P]
(Internet-Scale Services)
← 大規模 Web サービスの運用知。
Bahl+ 2007 [H]
(SIGCOMM — NetMedic)
← MS Research。依存性推論による
ネットワーク障害診断。
```
**観察**: この時代は**実務問題の定義**と**理論的枠組みの構築**が先行し、アラーティング専用の学術研究はまだ存在しない。「アラート」という言葉も使われておらず、「障害通知」「監視設定」として語られる。
---
### 2009〜2014 年 — 機械学習が「ノイズ抑制」と「ランキング」を担い始める
```
学術 [A] / 産業研究 [H] 実務 [P]
────────────────────────────────────────────────────────
Jiang+ 2009 ICAC [H]
(NEC Labs America)
← アラートランキング第1ルート。
「不変条件ネットワーク」教師なし。
Tang+ 2012 NOMS [H]
(IBM T.J. Watson +
Florida International Univ.)
← 非アクション可能アラート75%削減。
数学的保証 (Theorem 1)。
Lin+ 2014 KDD [H]
(IBM Research)
← 5M アラート+67k インシデントの
クラスタリング。半構造/非構造
を別手法で処理。
```
**観察**: この時代は学術・産業研究が**問題提起も解法設計も**担う。実務側の発表はほぼ見当たらない。問題設定はエンタープライズ IT(SNMP/Tivoli 系)に限定されており、クラウドネイティブの文脈はまだない。
---
### 2015〜2018 年 — 時系列基盤、SLO 駆動、実践者エコシステムの爆発
```
学術 [A] / 産業研究 [H] 実務 [P]
────────────────────────────────────────────────────────
Gorilla 2015 VLDB [H] Google SRE Book 2016 [P]
(Facebook) ← 4ゴールデンシグナル
← インメモリ TSDB。アラートが 「症状ベース呼び出し」
「時系列クエリ上のルール」に 「エラーバジェット」
なる前提基盤を作る。 → 業界規範語彙を確立。
Siffer+ 2017 KDD [A] Treat 2016 SREcon [P]
(SPOT/DSPOT — EVT) ← 発火前の4問ガバナンス
← 極値理論によるストリーム (ビジネス影響/修復/通知先/
異常検知。理論的に堅牢。 予防可能性)。自動修復結合の初期形。
Lin+ 2018 CIKM (CAR) [A] Rabenstein 2016 SREcon [P]
← ランキング第2ルート。 ← 「ページは症状・差し迫った
Pitman-Yor 階層ベイズ + 問題のみ」。複雑な ML を
統一凸最適化。ROC-AUC 0.998。 ページ経路に置くなという
反自動化論を明言。
Wilkinson 2017 SREcon [P]
← 監視保守コストは劣線形に。
SLI/SLO/SLA 3層定義。
Chen (Baidu) 2017 SREcon [P]
← 85% 削減。アテンション率
(夜間の閲覧ログ)で重要度補正。
Jalleda (Zynga) 2017 [P]
← アラートバジェット制。
90% 削減。インセンティブ
設計アプローチの原点。
Bostock (Cloudflare) 2017[P]
← 116 PoP 分散 Prometheus。
「監視と対象を同じ障害
ドメインに置く」原則。
Wilkinson 2018 SREcon [P]
Google SRE Workbook 2018 [P]
← multi-window multi-burn-rate
→ SLO 駆動アラーティングの
業界標準化。
Alibaba (Xinchi) 2018 [P]
← 5ゴールデンエレメント定義。
CMDB Hammurabi + 変更情報
重ね合わせ (障害の70%が変更起因)。
```
**観察**: 2016〜2018 年は**実務側が爆発的に発信**し、規範語彙を作った時代。学術はこの規範を静かに吸収し、2020 年以降の論文がことごとく「症状ベース」「SLO 違反」を前提に置く。**問題を定義したのは実務、解法を形式化したのは学術**という役割分業がここで確立する。
---
### 2019〜2021 年 — 「通知先ルーティング」と「相関後フィルタリング」の各論化
```
学術 [A] / 産業研究 [H] 実務 [P]
────────────────────────────────────────────────────────
Mineiro (Zalando) 2019 [P]
SREcon19 EMEA
← Adaptive Paging。
分散トレースで「誰を呼ぶか」
を動的ルーティング。
介入点に「通知先ルーティング」
を追加した最初の本番実装。
Zhao+ 2020 ICSE-SEIP [H]
(AlertStorm, Tsinghua/
Tencent/China EverBright)
← EVT でストーム検知 +
4段要約。調査工数98%削減。
AlertRank 2020 ISSRE [H]
(Tencent)
← ランキング第3ルート(教師あり)。
Resolution Record 自動ラベル付け
+ XGBoost incremental learning。
DEAR 2020 CLOUD [A]
(Univ. of Stuttgart)
← 評価インフラ層介入。BET 中間
表現で TTI を 27秒→370ms に。
DeepIP 2020 ASE [H]
(Microsoft)
← アテンション付き CNN で偶発的
インシデントを下流判定。
「上流ルール改善 vs 下流判定」
の対照軸を明示。
OAS 2022 ICSE [A]
(Fudan Univ.)
← 深層学習によるアラート集約。
Fudan 三部作の第1作。
Singh (LinkedIn) 2021 [P]
SREcon21
← MAD ベース修正 Z スコアで
スパイクを除去。36.4% を除去、
偽陽性 < 1%、トイル 30-40% 削減。
ML 非依存の軽量統計手法。
```
**観察**: 実務側は「誰に通知するか」「スパイクを後段で除く」という**既存の介入点の隙間**を埋める。学術側は「どう集約するか」「どう評価インフラを改善するか」という**手法本体**を深掘りする。この時期から **Tencent / Alibaba 系の産業研究 [H]** が急増し、実本番データで訓練・評価する論文が支配的になる。
---
### 2022〜2023 年 — アンチパターン経験論、動的グラフ、QoA の定量化、人間的介入の独立軸化
```
学術 [A] / 産業研究 [H] 実務 [P]
────────────────────────────────────────────────────────
Yang+ 2022 DSN [H] Zadka 2022 SREcon [P]
(CUHK + Huawei Cloud) ← アラート品質をコスト(真/偽/
← 400万件+18OCE調査から 欠落)で定量化。欠落アラームを
6アンチパターン同定。 品質モデルに含める強調。
QoA 3軸枠組みを将来提案。
DyAlert 2023 ASE [H] Cloudflare pint 2022 [P]
(Fudan × Alibaba) ← Prometheusルールの「静かな
← 動的グラフ表現学習(AMDG 故障モード」体系化。CI + デーモン
異種 k-GNN + GRU)。 で発火前健全性保証。
F1+0.259 向上。
TraceArk 2023 ICSE-SEIP [H] Smith (Campspot) 2022 [P]
(Microsoft Exchange) ← アラートポリューション失敗事例。
← アクショナビリティを「影響 「監視を増やす=安全」バイアスの
+ 解釈可能性の2軸」に拡張。 診断。
本番4ヶ月適合率0.9068。
Ganatra+ 2023 ESEC/FSE [H] Cruz 2023 SREcon [P]
(Microsoft) ← 認知的徒弟制。Alert Triage
← 検知失敗の根本原因実証。 Hour of Power(週1h×4ロール)。
Missing monitor/alert = 40.41%。 学習自体を目標とする
27.25% アウテージ発展。 第3のアプローチ(技術でも
インセンティブでもない)。
Voutsas 2023 JCC [H] 池田将士 2023 SRE NEXT [P]
(Netdata 本番データ) ← Warning アラート発火時の
← クリック行動を弱教師信号に。 証拠収集自動化(prepalert)。
RF フィルタ、精度70%・7.3ms。 5.5層「調査準備」介入点を埋める。
岩堀 2023 SRE NEXT [P]
← Runbook で Why/背景/判断材料
を保存。アラート追加前の
社会的合意を制度化。
```
**観察**: 2022〜2023 年は**実務と学術が同じ課題を異なる方法で同時に捉えた**時代。Yang+(学術)が QoA 3 軸を定義し、Zadka(実務)がコストモデルを独立に構築した——両者は同年に出た相補的枠組みである。同様に、Ganatra+(学術)が「監視不在」問題を実証し、Cruz(実務)が「人間の判断力育成」という別次元を追加した。**学術と実務の対話密度が最高潮に達した時期**。
---
### 2024 年 — LLM 第 1 波: 役割分化と「上流ルール改善」への回帰
```
学術 [A] / 産業研究 [H] 実務 [P]
────────────────────────────────────────────────────────
COLA 2024 ICSE-SEIP [H] MonitorAssistant 2024 [H]
(CUHK + Huawei Cloud) (ESEC-FSE)
← LLM を SOP 解読器として使用。 ← クラウドサービス監視の
高頻度ペアは統計、低頻度は LLM。 オーサリング支援を LLM で簡素化。
F1 > 0.9。
Bhukar+ 2024 ICSE-SEIP [H]
(IBM Research)
← 動的アラート抑制。教師なし統計
で X-out-of-Y を個別最適化。
教師あり上界に到達。61.53% 削減。
AlertRCA 2024 CCGrid [H]
← CPGAT + DAGNN でアラートのみ
から RCA。top-1 83.9%。
SuperAgg 2024 ISSRE [A]
(NUDT)
← HPC 固有の連続的アラート過負荷
を独立カテゴリとして提示。
Yu+ 2024 JNCA survey [A]
← AIM 8プロセス体系化。
本領域初の包括的サーベイ。
```
**観察**: 2024 年は**学術・産業研究が LLM をどこに置くか**を急速に整理した年。LLM を「SOP 解読器 / SDG マッパー / 監視オーサリング支援」の 3 役割に分化。実務側の新規発表は少なく、**産業研究 [H] が実務の役割を吸収**しつつある。
---
### 2025〜2026 年 — LLM 第 2 波と Agentic への受け渡し
```
学術 [A] / 産業研究 [H] 実務 [P]
────────────────────────────────────────────────────────
AlertGuardian 2025 ASE [H] Google AI in SRE 2026 [P]
(Sun Yat-sen + Tencent) ← 3段アーキテクチャ明示。
← ライフサイクル全段処理。 TimesFM→SRE alerting agent
ルール改善受容率 32%(375件採用)。 → autonomous alert handlers。
閾値設計不要化へ。
SkyNet 2025 SIGCOMM [H] Datadog Bits AI SRE 2026 [P]
(Alibaba Cloud) ← 自律インシデント調査エージェント
← LLM を意図的に不採用。 を商用サービスとして公開。
重大障害 (年数回) には
コンテキスト超過+ハルシネーション
で適用不可能と結論。
LogPilot 2025 ASE [H]
VOCE 2025 FASE [H]
(Company A の 827 インシデント)
← 「最初のアラート=根本原因」が
45.34%に過ぎないことを実証。
ProAlert 2025 FSE [H]
(Fudan 三部作完結)
← 教師なし伝播パターン学習。
S1 VCR 93.53%、200+alerts/sec。
Harp 2026 NSDI [H]
(Tencent)
← VPC 障害検知+迂回制御の統合
自律対応を本番運用。
SREGym / Cloud-OpsBench [A/H]
2026 arXiv
← agentic SRE 評価ベンチマーク整備。
```
**観察**: 2025〜2026 年は**学術・産業研究が LLM の限界を正直に示す**時代になった。SkyNet は「LLM 不採用の判断」を論文として発表し、Google は「閾値設計不要化」という大転換を実務報告として公開した。実務と学術の役割が**再び逆転しつつある**——次の大きな方向は実務が先に示している。
---
## 通時的な役割分担パターン
```
問題の発見 ──→ 形式化 ──→ 解法設計 ──→ 評価 ──→ 実用化
↑ ↑ ↑ ↑ ↑
[P] 実務 [A]学術 [H]産業研究 [A/H] [P] 実務
(早い・現場) (厳密) (最多・最速) (査読) (デプロイ)
```
| フェーズ | 主役 | 代表事例 |
|----------|------|---------|
| 問題の命名 | **実務 [P]** | 「アラート疲労」「アラートストーム」「アラートポリューション」はすべて SREcon 語彙 |
| 規範語彙の確立 | **実務 [P]** | 4 ゴールデンシグナル・症状ベース・SLO・エラーバジェット (Google SRE Book) |
| ML 手法の設計 | **学術 [A]** | ランキング 3 ルーツ・EVT・階層ベイズ・GNN |
| 大規模実証 | **産業研究 [H]** | Tencent / Huawei / Microsoft の本番データ論文群 |
| インセンティブ設計 | **実務 [P]** | アラートバジェット制 (Jalleda 2017) |
| 人的能力育成 | **実務 [P]** | 認知的徒弟制 (Cruz 2023) |
| 限界の明示 | **産業研究 [H]** | SkyNet「LLM 不採用」判断 (2025) |
| 次世代方向の提示 | **実務 [P]** | agentic SRE・閾値不要化 (Google 2026) |
---
## 未検討の学術/実務の断絶
1. **Yu+ JNCA2024 の AIM 分類に非技術的介入が含まれない** — インセンティブ設計・認知的徒弟制・Runbook ガバナンスは実務 [P] にしか存在せず、学術の体系化対象に入っていない。
2. **実務の 85〜90% 削減数字が再現されていない** — Jalleda (アラートバジェット) / Chen (技術的 4 施策) の成果は査読なし発表であり、統計的に再現された学術論文は存在しない。
3. **産業研究 [H] の本番データは非公開** — Tencent / Huawei / Alibaba の実験データはほぼ公開されておらず、独立再現が困難。学術 [A] が形式化した手法と実務 [P] が報告する削減率の橋渡しができていない。
4. **SkyNet の「LLM 不採用閾値」が未定量化** — コンテキストウィンドウ拡張で動的に変化するが、その境界を理論化した学術研究はまだない。
---
## 関連
- 元資料: [[アラーティングの進歩-年代別]]
- 概念ページ: [[アラート管理]] / [[アラート疲労]] / [[アラートポリューション]] / [[Quality of Alerts]] / [[agentic SRE]]
- 外部参照: [[AIOps]] / [[インシデント管理]]