Spike Detection in Alert Correlation:
A dive into Outliers and simple Math
Nishant Singh
Senior SRE, [[LinkedIn]]
<https://www.usenix.org/system/files/srecon21_slides_singh.pdf>
## Abstract
> LinkedInのスタックは、何千もの異なるマイクロサービスと、それに関連するマイクロサービス間の複雑な依存関係で構成されています。誤動作するサービスの問題で本番停止が発生した場合、停止の原因となったサービスを正確に見つけるのは困難で時間がかかります。各サービスには分散型インフラストラクチャで複数のアラートが設定されていますが、障害発生時に問題の真の根本原因を見つけることは、適切な計測器があったとしても、干し草の中から針を探すようなものです。お客様のリクエストのクリティカルパスにあるすべてのサービスには、複数のアクティブなアラートが存在するからです。これらの独立したアラートから意味のある情報を導き出す適切なメカニズムがないと、誤ったエスカレーションが発生し、問題解決に要する時間が長くなってしまいます。本講演では、LinkedInのアラート相関システムでスパイク(異常)検知をどのように使用したかを紹介します。これにより、偽陽性のアラートからアラートを見つけ出し、エンジニアの負担を軽減することができます。
## Memo
- LinkedInの構成
- Frontend, Midtier, Backend, Database
- インシデント対応に対する要求
- Find a problem with a service between a given time .
- Reduce MTTR on incidents
- Reduce False escalations
- スコープ
- A service has high latency or high error rates
- Alert Corrleation
- Callgraphを使っている
![[Pasted image 20211013210627.png]]
![[Pasted image 20211013210704.png]]
- Modified Z-Score For Outlier Detection
![[Pasted image 20211013210832.png]]
- MAD (Median Absolute Deviation)
- [[中央偏差]](MAD):分布がどれだけ広がっているかを示す堅牢な尺度
$MAD = median{|x_{i} - \tilde{x}|}$
- MADはロバストな統計で、標準偏差よりも分布の外れ値に強い。
- 標準偏差では、平均からの距離が2乗されているため、大きな偏差はより重く扱われ、外れ値が大きく影響する。
- MADでは、少数の外れ値の偏差は関係ない
- Spike Detection
-
![[Pasted image 20211013211851.png]]
- Conclusion
- MLなしの簡単な統計で問題を解決した。
- toilを30-40%減らせた。