## Memo
- [[NetManAIOps]]からの論文。
- 貢献
- 大規模な実世界データと技術者へのインタビューをもとに,根本原因を特定するための予備的な研究
- 大手商業銀行のさまざまなチームに所属する数十人のエンジニアにインタビュー
- PatternMatcher: 1次元CNN[8]に基づいた効果的な異常パターンの分類
- 数千のメトリクス候補に直面しても数十秒でランキング結果を提供する
- メトリクスの総数は260Kのケース
## Abstract
オンラインサービスシステムにおけるインシデントは、ユーザーの利便性を低下させ、多大な経済的損失をもたらす可能性があります。インシデントの影響を低減し、サービスの信頼性を保証するためには、インシデントの診断を支援する手がかりとなる根本原因のメトリクスを特定することが重要です。しかし、大規模システムでは、複雑な依存関係や膨大な量の様々なメトリクスが存在するため、これは困難な課題です。既存のアプローチは、異常検知や相関分析に基づいていますが、精度や効率の面ではあまりよくありません。本研究では、根本原因となるメトリクスの特定の問題をよりよく理解するために、実際のデータ分析とエンジニアとの対話に基づいた予備的な研究を行いました。その結果、根本原因の評価指標は2つの要件を満たす必要があることがわかりました。1つは、インシデント中にメトリクスが異常な動作をすることが予想されること、もう1つは、異常なパターンが物理的な意味とエンジニアの要求を満たすことです。本研究で得られた知見を基に、我々は根本原因メトリクスを正確に特定するためのPatternMatcherと呼ばれる効果的なアプローチを提案する。具体的には、PatternMatcherには、正常なメトリクスを除外するための粗い粒度の異常検出、重要でない異常パターンを除外するための異常パターン分類、および根本原因メトリクスのランキングという3つのステップが含まれています。大手商業銀行の113件のインシデントケースを含む4つの実世界データセットを用いた大規模な研究により、PatternMatcherがすべてのベースラインアプローチを凌駕し、トップ3の平均精度0.91を達成したことが実証されました。さらに、我々はPatternMatcherを実際に展開し、実際の展開で成功したケースを共有した。
[[2021__ISSRE__Identifying Root-Cause Metrics for Incident Diagnosis in Online Service Systems__translations]]