# Argus (Baidu) [[Baidu]] の SRE チームが運用する内製監視システム。数百の分散サービスを常時追跡し、異常検知器の出力としてアラートを生成・配信する。 [[Yu Chen (Baidu)]] の SREcon17 Asia 発表([[@2017__SREcon17 Asia__Draining the Flood - A Combat against Alert Fatigue]])によれば、平均的な日に数百万件の警告イベントを検知し、数千件の SMS アラートをオンコールエンジニアに送信する。1 人あたり日中 100 件超、夜間 30 件超のアラートを受信し、有効アラート率は 15% 未満であった。アラートグルーピング・重要度キャリブレーション・オンコールエスカレーション・自動修復の 4 施策導入後、アラート量を 85% 削減。 ## 関連 - 開発元: [[Baidu]] - 発表者: [[Yu Chen (Baidu)]] - 概念: [[アラート疲労]] / [[アラート管理]] / [[自動修復]]