## Memo
- [[NetManAIOps]]からの論文
- 異常なトレースが多く、正常なトレースが少ないマイクロサービスが、根本原因のマイクロサービスである可能性が高いという仮定を置いている
- 障害発生後に各メトリクスの基本的な分布が変化するかどうかをテストする
- 貢献
- >単純明快な洞察に基づいて、トレース解析を介した新しい教師なしの軽量な根本原因マイクロサービスのローカリゼーションアプローチを設計します。
- >本手法では,各故障に対して有用な特徴を適応的に選択し,選択した特徴に基づいて呼び出し異常の検出とトレース異常の推論を行う.
- >本研究では,10種類のカテゴリに分類された222の故障を含む2つのベンチマークを用いて,最も大規模な実験を行った.実験結果は、TraceRCAの有効性と効率性を実証しています。また、大規模な生産システムへのTraceRCAの導入から得られた教訓を紹介します。
- 評価に[[2020 AIOps Challenge マイクロサービスアプリケーションの障害発見と根本原因の特定]]のデータセットを用いている。
## Abstract
マイクロサービスアーキテクチャは、配信、スケーラビリティ、自律性に優れているため、ますます多くのシステムで採用されています。障害が発生した際に、原因となるマイクロサービスを迅速に特定することは重要ですが、困難を伴います。トレースはマイクロサービスの根本原因を特定するのに役立つため、最近では多くのアプローチがトレースを利用しています。しかし、これらのアプローチは、監視やその他の非現実的な仮定に依存しているため、実用的ではありません。これらの限界を克服するために、我々はTraceRCAと名付けられたより実用的な根本原因マイクロサービスのローカリゼーションアプローチを提案します。TraceRCAの主な洞察は、マイクロサービスを通過するトレースが異常で正常でないものが多いほど、根本原因である可能性が高いということです。これに基づき、TraceRCAは、トレース異常検知、疑わしいマイクロサービスセットのマイニング、マイクロサービスのランキングから構成されています。我々は、広く利用されているオープンソースのマイクロサービスベンチマークと本番システムにおいて、数百件の注入された障害について実験を行いました。その結果、TraceRCAは様々な状況で有効であることがわかりました。TraceRCAのトップ1精度は、最先端の教師なしアプローチを44.8%上回っています。さらに、TraceRCAは大規模な商業銀行にも適用されており、オペレータが実世界の障害の根本原因を正確かつ効率的に特定するのに役立っています。また、実世界での展開から得られたいくつかの教訓についても紹介します。
[[2021__IWQOS__Practical Root Cause Localization for Microservice Systems via Trace Analysis__translations]]