## Memo - [[2023__arXiv__Hierarchical Graph Neural Networks for Causal Discovery and Root Cause Localization|REASON]]のKDD採択版。 ## Abstract 根本原因分析の目的は、システムの監視データから原因構造を発見・分析することにより、システム問題の根本原因を特定することである。これは、大規模複雑システムの安定性と頑健性を維持するために不可欠である。既存の手法では、単一の効果的な孤立した因果ネットワークの構築に主眼が置かれているが、現実のシステムの多くは複雑であり、相互依存的な構造を示している(すなわち、システムの複数のネットワークがクロスネットワークリンクによって相互接続されている)。相互依存ネットワークでは、問題のあるシステム・エンティティの機能不全の影響が、他のネットワークや異なるレベルのシステム・エンティティに伝播する可能性がある。その結果、相互依存性を無視すると、根本原因分析の結果が最適でなくなる。 本論文では、根本原因を特定するために、レベル内(すなわち、ネットワーク内)とレベル間(すなわち、ネットワーク間)の因果関係の自動発見を可能にする新しいフレームワークであるREASONを提案する。REASONは、Topological Causal Discovery(TCD)とIndividual Causal Discovery(ICD)から構成される。TCDコンポーネントは、根本原因まで遡るために、故障の伝播をモデル化することを目的としている。これを達成するために、我々は、レベル内およびレベル間の非線形因果関係をモデル化することにより、相互依存因果ネットワークを構築する新しい階層グラフニューラルネットワークを提案する。そして、学習された相互依存因果ネットワークに基づいて、再起動を伴うランダムウォークを活用し、システム故障のネットワーク伝播をモデル化する。ICDコンポーネントは、単一のシステムエンティティの急激な変化パターンを捉えることに重点を置く。このコンポーネントは、各エンティティのメトリックデータ(すなわち時系列)の時間的パターンを調べ、極値理論に基づいて根本原因である可能性を推定する。トポロジカルな原因スコアと個々の原因スコアを組み合わせることで、上位K個のシステムエンティティが根本原因として特定される。3つの実世界データセットを用いた広範な実験により、提案フレームワークの有効性を検証する。