## Memo
- [[FudanSELab]]の論文。
- Alibaba
## Abstract
産業用マイクロサービスシステムの可用性の問題(例えば、正常に発注された注文や処理されたトランザクションの低下)は、ビジネスの運営に直接影響します。これらの問題は、通常、サービスの依存関係に沿って伝播する様々なタイプのサービス異常によって引き起こされます。したがって、正確かつ高効率な根本原因の特定は、大規模な産業用マイクロサービスシステムにとって重要な課題となっています。既存のアプローチでは、サービス依存関係グラフに基づく分析技術を使用して、根本原因を自動的に突き止めます。しかし、これらのアプローチは、サービス異常の不正確な検出とサービス依存関係グラフの非効率なトラバースのために制限されています。本論文では、マイクロサービスシステムの可用性問題に対する高効率な根本原因特定アプローチであるMicroHECLを提案する。MicroHECLは,動的に構築されるサービスコールグラフに基づき,起こりうる異常伝播の連鎖を分析し,相関分析に基づいて根本原因の候補をランク付けする.機械学習と統計手法を組み合わせ、様々なタイプのサービス異常(パフォーマンス、信頼性、トラフィックなど)を検出するためにカスタマイズされたモデルを設計します。効率性を高めるため、異常伝播連鎖分析において無関係なサービスコールを排除するプルーニング戦略を採用します。実験によると、MicroHECLは2つの最新ベースラインアプローチを精度と効率の両面で著しく上回ることが示された。MicroHECLはAlibabaで使用され、トップ3ヒット率68%を達成し、根本原因の特定にかかる時間は30分から5分に短縮されました。
[[2022__ICSE-SEIP__MicroHECL - High-Efficient Root Cause Localization in Large-Scale Microservice Systems__translations]]