## Memo
## Abstract
オンライン・サービス・システムにおける正確かつ効率的な根本原因の特定は、サービスの安定性とユーザー・エクスペリエンスにとって極めて重要である。システム障害が発生すると、数多くのアラートが生成されますが、既存の手法では、これらすべてのマルチモーダルデータを効果的に統合して根本原因を特定することができません。さらに、既存のアプローチのほとんどは、手作業で作成されたルールとドメインの専門知識に大きく依存しているため、大規模なオンラインサービスには非効率的です。本稿では、アラートイベントに基づく根本原因分析(RCA)のアルゴリズムであるAlertRCAを紹介する。AlertRCAは、事前に訓練されたAlert2Vecモジュールを利用して、マルチモーダルなアラート情報をベクトルにエンコードし、RCA指向の因果関係予測グラフアテンションネットワーク(CPGAT)を実装して、アラート間の因果関係を自動的に測定する。さらに、根本原因を特定するための新しい分散・集約グラフニューラルネットワーク(DAGNN)を考案する。トップクラスの電子商取引企業から収集した実世界のデータセットでの実験により、AlertRCAの優れた性能が明らかになり、平均83.9%のトップ1精度と96.8%のトップ3精度を達成している。当社のコードは https://github.com/NetManAIOps/AlertRCA から入手可能です。