[Anomaly Detection on Golden Signals | USENIX](https://www.usenix.org/conference/srecon19asia/presentation/chen-yu)
## Abstrach
レイテンシ、トラフィック、エラー、飽和などのゴールデンシグナルに対する異常検出は、システム障害を検出し、障害診断の重要な手がかりを提供することができます。本講演では、ゴールデンシグナルに対する異常検知のためのアルゴリズムツールボックスを紹介する。
このツールボックスは、信号の履歴データを活用して、適切な確率モデルを構築する。そのため、観測データと確率モデルから計算される確率に基づいてアラートが生成されます。確率は分類の誤検出率に直接関係し、[[notes/sre/SRE]]エンジニアの感覚を表現することができます。さらに、確率の値は、異なる信号間で比較可能である。そのため、故障診断に適した機能となっています。我々の本番システムでは、アラート精度は70%から90%、リコールは90%程度である。
## メモ
- Baidu
- [[SREゴールデンシグナル|SRE 4 Golden Signals]]
- [[3σ則]]
- レイテンシーは正規分布に従わない
- Robust linear regression [[線形回帰]]
- Variational auto-encoder
- Statistical analysis + Unsupervised learning
- Latency
- KDE, automatic removal of abnormal values in history
- Saturation
- KDE, Beta kernel
- Errors
- Binomial distribution, proportion z-test
- Traffic
- Prediction algorithms: robust linear regression, VAE, periodic pattern mining
- Poisson distribution, MAD