# AirAlert
## 定義
AirAlert は Microsoft クラウドで提案・実証されたアウテージ予測・診断システム。クラウドの「system of systems」全体を見渡すグローバルウォッチャとして、全コンポーネントから収集したアラート信号を入力とし、(1) **Bayesian network**(FCI アルゴリズムによる無向骨格)で信号-アウテージの依存関係を学習して「直接接続する信号集合」を選別、(2) **XGBoost**(gradient boosting tree)でアウテージの発生有無を時間粒度で分類予測する。SMOTE で稀少アウテージの不均衡を補正。Microsoft 1 年・6 サービス・約 8,000 サンプルで評価され、サービスレベルアウテージ予測で F1 53.92-88.78% を達成。(Source: [[@2019__WWW__Outage Prediction and Diagnosis for Cloud Service Systems]])
2 モード:
- **AirAlert Related**: Bayesian network の selected signals のみを XGBoost に投入。
- **AirAlert Full**: 全 alerting signals を投入。
## 横断的知見
- (1 ソース目: Chen+ WWW2019 のみ)
## 未解決の問い
- AirAlert の本番展開後の運用報告は本論文に含まれない。Microsoft の後続研究(同 Qingwei Lin・Dongmei Zhang チームの iDice・Onion・Gandalf 等)でどう発展したか。
- FCI Bayesian network が出す DAG は実際は PAG(Partial Ancestral Graph)で因果方向が部分的にしか決まらない。本論文は接続性のみ利用するが、方向情報を併用することで予測精度が上がるか。
- 1 時間粒度で予測する設計が、分・秒の細粒度監視と統合できるか。マイクロサービスのレイテンシ揺らぎは秒スケールで動くため、AirAlert の粒度では捉えきれない可能性。
- AirAlert Related が AirAlert Full を上回るケースが多いが、Cloud Network のみ逆転(53.92% vs 71.22%)。Bayesian network の selection が信頼できないケースを事前に判定できるか。
## 関連
- 親概念: [[障害予測]]・[[アラート管理]]
- 同系統手法: PAGER(Adobe、random forest + LLM 説明、2026)・iDice(Microsoft、Lin+ ICSE2016)・Gandalf(Microsoft、NSDI2020)・PreFix(Tsinghua、Zhang+ SIGMETRICS2018、SuperBench で参照)
- 構成技術: Bayesian network(FCI アルゴリズム)・XGBoost・SMOTE・Pearson 相関 + Fisher's z
- ソース: [[@2019__WWW__Outage Prediction and Diagnosis for Cloud Service Systems]]
## 出典
- [[@2019__WWW__Outage Prediction and Diagnosis for Cloud Service Systems]] §3-§4。