## Memo - [[2023__arXiv__Incremental Causal Graph Learning for Online Unsupervised Root Cause Analysis|Wang+, arXiv2023]]のKDD採択版。 - ![[Pasted image 20230818041253.png|600]] ## Abstract 根本原因分析(RCA)の課題は、システムの監視データを分析することによって、システム故障/障害の根本原因を特定することである。RCAを十分に行うことで、システム障害の復旧を大幅に加速し、システムの損害や経済的損失を軽減することができる。しかし、これまでの研究では、オフラインRCAアルゴリズムの開発が中心であり、RCAプロセスを手動で開始し、ロバストなモデルを学習するために膨大な時間とデータを必要とし、新しいシステム故障のためにゼロから再学習する必要がありました。 本論文では、RCAプロセスを自動的に起動し、RCAモデルを段階的に更新できる、新しいオンラインRCAフレームワークであるCORALを提案する。CORALは、トリガーポイント検出、逐次的な因果関係グラフ学習、およびネットワーク伝播に基づく根本原因の特定から構成される。トリガーポイント検出コンポーネントは、システムの状態遷移をほぼリアルタイムで自動的に検出することを目的としている。これを達成するために、多変量正弦スペクトル解析と累積和統計量に基づくオンライン・トリガーポイント検出アプローチを開発する。RCAモデルを効率的に更新するために、状態不変情報と状態依存情報を分離する漸進的分離因果グラフ学習アプローチを提案する。その後、CORALは更新された因果グラフに対して、再スタートを伴うランダムウォークを適用し、根本原因を正確に特定する。オンラインRCAプロセスは、因果グラフと生成された根本原因リストが収束した時点で終了する。3つの実世界データセットを用いた広範な実験により、提案フレームワークの有効性と優位性が実証された。