[Automatic Metric Screening for Service Diagnosis | USENIX](https://www.usenix.org/conference/srecon18americas/presentation/chen)
Abstract:
> サービスにインシデントが発生した場合、オンコール・エンジニアはできるだけ早く損失を食い止めるために、根本的な原因を迅速に特定する必要がある。 診断の手順は通常、多くのメトリクスを調べることからなり、エンジニアの知識と経験に大きく依存します。 サービスの規模や複雑さが増すにつれて、調査すべきメトリクスは数百から数千になる可能性があり、その手順はますます面倒になり、エラーが発生しやすくなります。 人間には難しいですが、アルゴリズムはこのような反復作業を効率的かつ正確に実行するのに適しています。 本講演では、システム・パフォーマンス指標やユーザー定義のメトリクスを含むサービス・メトリクスに関する自動スクリーニング・アプローチを紹介する。 異常検出アルゴリズムは、正常なメトリクスをフィルタリングし、マシン/インスタンス・レベルの異常パターンを作成します。 異常パターンは次にグループにクラスタ化される。 最後に、その異常レベルに従ってグループがランク付けされる。 上位のグループは、その異常なメトリクスとともに、推奨としてエンジニアに提示されます。 実際のケースでの経験から、上位3つのグループは根本原因モジュールのほとんどをカバーし、対応するインシデントの原因を理解するための重要な情報を明らかにすることができます。