# 酷贝 (Baidu)
[[Baidu]] が開発した自動異常検知スマート監視システム。「酷」(Cool) + 「贝」(Bay/Shell) の合成語。[[Xianping Qu]] が 2015 年 3 月の SREcon15 Americas で発表した。
Baidu の監視システムは 2015 年時点でマシンレベル 9,000 万件・サービスレベル 5,000 万件、計 1 億 4,000 万以上の監視項目を持ち、監視データは 20PB・1 日 40TB 増加という規模に達していた。
## アーキテクチャ
**収集(Collection) → 検知(Detection) → 診断(Diagnosis)** の 3 段パイプライン。
### 検知の 5 戦略
| 戦略 | 手法 | 用途 |
|---|---|---|
| 1 | 3-sigma ルール | 安定・正規分布のデータ |
| 2 | セグメント 3-sigma | 昼夜で分布が変わるデータ(15 分セグメント) |
| 3 | KS 検定 | 平日・週末・祝日で分布が異なるデータ |
| 4 | Holt-Winters | 季節性・トレンドがあるデータ |
| 5 | 局所回帰(LOESS) | 局所的な急増・急落 |
### アラームフィルタ
- **Viterbi デコーダ**: 単発異常点でなく連続した異常イベントを形成してアラームを発する。誤報削減の主要機構。
- ユーザーラベル(未検知マーク・誤報マーク)から検知パラメータを自動調整する学習機構を持つ。
### 診断ビュー
- 総次元・サブ次元の影響度ウェイト順ランキング
- 地域・ブラウザ・チャネル等によるヒートマップ
- アップグレードイベントとメトリクスの時間軸オーバーレイ
- モジュール呼び出しグラフ(サービス全体ビュー)
## 関連システム
- [[Argus (Baidu)]] — 後継/並行の Baidu 内製監視システム。アラート疲労対策に特化([[@2017__SREcon17 Asia__Draining the Flood - A Combat against Alert Fatigue]])。
## 出典
- [[@2015__SREcon15__Smart Monitor System For Automatic Anomaly Detection at Baidu]]