## Memo
- [[2021__Journal-of-Software__TraceRank - Abnormal service localization with dis-aggregated end-to-end tracing data in cloud native systems|TraceRank]]より引用。
- 正常なトレースと異常なトレースの両方をみる
- [[fkwx-tools]]
- 評価に[[2020 AIOps Challenge マイクロサービスアプリケーションの障害発見と根本原因の特定]]のデータセットを用いている。
## Abstract
マイクロサービスは、柔軟なスケーラビリティと迅速なデリバリーという利点があり、現代のIT業界では一般的なソフトウェア・アーキテクチャとなっています。しかし,マイクロサービス環境では,サービス・インスタンスの数が爆発的に増加し,依存関係も複雑になっているため,トラブルシューティングが非常に困難になっています。マイクロサービス・システムの理解とトラブルシューティングを支援するために、エンド・ツー・エンドの[[Distributed Tracing|分散トレース]]技術が広く適用されており、各リクエストの実行経路を把握することができます。しかし、クラウド事業者やアプリケーション事業者は、マイクロサービス環境における遅延問題の特定を行う際に、このトレースデータを十分に活用できていない。
この論文では、MicroRankと名付けられた新しいシステムを提案しています。このシステムは、正常なトレースと異常なトレースから得られる手がかりを分析し、遅延問題の根本原因を突き止めます。MicroRank の Anomaly Detector によって遅延問題が検出されると、原因究明の手順が開始されます。MicroRank はまず、どのトレースが異常であるかを区別します。次に、MicroRankの[[PageRank]] Scorerモジュールは、異常なトレースと正常なトレースの情報を入力として使用し、異なるトレースの重要性を拡張スペクトラム技術に差をつけます。最後に、スペクトル技術はPageRank Scorerからの重み付けされたスペクトル情報に基づいてランキングリストを計算し、より効果的に根本原因を探し出すことができます。広く使用されているオープンソースシステムと本番システムでの実験的評価により、MicroRankは1つの根本原因の状況だけでなく、同時に発生した2つの問題でも優れた結果を達成することがわかりました。さらに、MicroRankは現在の最先端の手法と比較して、根本原因を特定する際の再コールを6%~22%改善しています。
[[2021__WWW__MicroRank―End-to-End Latency Issue Localization with Extended Spectrum Analysis in Microservice Environments__translations]]