[Anomaly Detection on Golden Signals | USENIX](https://www.usenix.org/conference/srecon19asia/presentation/chen-yu) ## Abstrach レイテンシ、トラフィック、エラー、飽和などのゴールデンシグナルに対する異常検出は、システム障害を検出し、障害診断の重要な手がかりを提供することができます。本講演では、ゴールデンシグナルに対する異常検知のためのアルゴリズムツールボックスを紹介する。 このツールボックスは、信号の履歴データを活用して、適切な確率モデルを構築する。そのため、観測データと確率モデルから計算される確率に基づいてアラートが生成されます。確率は分類の誤検出率に直接関係し、[[notes/sre/SRE]]エンジニアの感覚を表現することができます。さらに、確率の値は、異なる信号間で比較可能である。そのため、故障診断に適した機能となっています。我々の本番システムでは、アラート精度は70%から90%、リコールは90%程度である。 ## メモ - Baidu - [[SREゴールデンシグナル|SRE 4 Golden Signals]] - [[3σ則]] - レイテンシーは正規分布に従わない - Robust linear regression [[線形回帰]] - Variational auto-encoder - Statistical analysis + Unsupervised learning - Latency - KDE, automatic removal of abnormal values in history - Saturation - KDE, Beta kernel - Errors - Binomial distribution, proportion z-test - Traffic - Prediction algorithms: robust linear regression, VAE, periodic pattern mining - Poisson distribution, MAD