# 酷贝 (Baidu) [[Baidu]] が開発した自動異常検知スマート監視システム。「酷」(Cool) + 「贝」(Bay/Shell) の合成語。[[Xianping Qu]] が 2015 年 3 月の SREcon15 Americas で発表した。 Baidu の監視システムは 2015 年時点でマシンレベル 9,000 万件・サービスレベル 5,000 万件、計 1 億 4,000 万以上の監視項目を持ち、監視データは 20PB・1 日 40TB 増加という規模に達していた。 ## アーキテクチャ **収集(Collection) → 検知(Detection) → 診断(Diagnosis)** の 3 段パイプライン。 ### 検知の 5 戦略 | 戦略 | 手法 | 用途 | |---|---|---| | 1 | 3-sigma ルール | 安定・正規分布のデータ | | 2 | セグメント 3-sigma | 昼夜で分布が変わるデータ(15 分セグメント) | | 3 | KS 検定 | 平日・週末・祝日で分布が異なるデータ | | 4 | Holt-Winters | 季節性・トレンドがあるデータ | | 5 | 局所回帰(LOESS) | 局所的な急増・急落 | ### アラームフィルタ - **Viterbi デコーダ**: 単発異常点でなく連続した異常イベントを形成してアラームを発する。誤報削減の主要機構。 - ユーザーラベル(未検知マーク・誤報マーク)から検知パラメータを自動調整する学習機構を持つ。 ### 診断ビュー - 総次元・サブ次元の影響度ウェイト順ランキング - 地域・ブラウザ・チャネル等によるヒートマップ - アップグレードイベントとメトリクスの時間軸オーバーレイ - モジュール呼び出しグラフ(サービス全体ビュー) ## 関連システム - [[Argus (Baidu)]] — 後継/並行の Baidu 内製監視システム。アラート疲労対策に特化([[@2017__SREcon17 Asia__Draining the Flood - A Combat against Alert Fatigue]])。 ## 出典 - [[@2015__SREcon15__Smart Monitor System For Automatic Anomaly Detection at Baidu]]