## Memo
## Abstract
大規模なオンラインサービスでは、重要なメトリクス、別名KPI(Key Performance Indicator)を定期的に監視し、稼働状況をチェックします。一般的に、KPIは複数の次元に沿って集約され、生データから基本的なメトリクス間の複雑な計算によって導き出されます。異常なKPI値が観測されると、根本原因分析(RCA)を適用して異常の原因を特定し、迅速にトラブルシューティングを行うことができる。最近、いくつかの自動 RCA 技術が、異常を説明するために関連する次元(または次元の組み合わせ)を特定するために提案された。しかし、それらの分析は、異常なメトリクスのデータに限定され、同じく異常と関連する他のメトリクスのデータを無視するため、不正確な、あるいは誤った根本原因にさえつながる。この目的のために、我々はCMMDと名付けられたクロスメトリック多次元根本原因分析手法を提案する:1) グラフニューラルネットワーク([[Graph Neural Network|GNN]])を利用した関係モデリング。これは、過去のデータからメトリクス間の未知の複雑な計算と次元間の集約関数をモデル化する。合成データセット、実世界データセット、オンライン本番環境での実験により、我々の提案するCMMD手法がベースラインと比較して優れていることが実証された。現在、CMMDはMicrosoft Azureのオンラインサービスとして稼働している。