Spike Detection in Alert Correlation at LinkedIn - SREcon21

Spike Detection in Alert Correlation: A dive into Outliers and simple Math Nishant Singh Senior SRE, [[LinkedIn]] <https://www.usenix.org/system/files/srecon21_slides_singh.pdf> ## Abstract > LinkedInのスタックは、何千もの異なるマイクロサービスと、それに関連するマイクロサービス間の複雑な依存関係で構成されています。誤動作するサービスの問題で本番停止が発生した場合、停止の原因となったサービスを正確に見つけるのは困難で時間がかかります。各サービスには分散型インフラストラクチャで複数のアラートが設定されていますが、障害発生時に問題の真の根本原因を見つけることは、適切な計測器があったとしても、干し草の中から針を探すようなものです。お客様のリクエストのクリティカルパスにあるすべてのサービスには、複数のアクティブなアラートが存在するからです。これらの独立したアラートから意味のある情報を導き出す適切なメカニズムがないと、誤ったエスカレーションが発生し、問題解決に要する時間が長くなってしまいます。本講演では、LinkedInのアラート相関システムでスパイク（異常）検知をどのように使用したかを紹介します。これにより、偽陽性のアラートからアラートを見つけ出し、エンジニアの負担を軽減することができます。 ## Memo - LinkedInの構成 - Frontend, Midtier, Backend, Database - インシデント対応に対する要求 - Find a problem with a service between a given time . - Reduce MTTR on incidents - Reduce False escalations - スコープ - A service has high latency or high error rates - Alert Corrleation - Callgraphを使っている ![[Pasted image 20211013210627.png]] ![[Pasted image 20211013210704.png]] - Modified Z-Score For Outlier Detection ![[Pasted image 20211013210832.png]] - MAD (Median Absolute Deviation) - [[中央偏差]](MAD)：分布がどれだけ広がっているかを示す堅牢な尺度 $MAD = median{|x_{i} - \tilde{x}|}$ - MADはロバストな統計で、標準偏差よりも分布の外れ値に強い。 - 標準偏差では、平均からの距離が2乗されているため、大きな偏差はより重く扱われ、外れ値が大きく影響する。 - MADでは、少数の外れ値の偏差は関係ない - Spike Detection - ![[Pasted image 20211013211851.png]] - Conclusion - MLなしの簡単な統計で問題を解決した。 - toilを30-40%減らせた。