## Memo
- のちにKDDに[[2023__KDD__Incremental Causal Graph Learning for Online Root Cause Analysis|Wang+, KDD2023]]として投稿されている。
- [[gCastle]]を用いて実装されている。
## Abstract
根本原因分析(RCA)の課題は、システムの監視データを分析することによって、システム障害/故障の根本原因を特定することである。RCAを効率的に行うことで、システム障害の復旧を大幅に早め、システムの損害や金銭的損失を軽減することができます。しかし、これまでの研究では、オフラインのRCAアルゴリズムの開発に主眼が置かれており、RCAプロセスを手動で開始し、ロバストなモデルを学習するために多大な時間とデータを必要とし、さらに新しいシステム障害に対してゼロから再学習することがしばしばありました。
本論文では、RCAプロセスを自動的に起動し、RCAモデルをインクリメンタルに更新できる新しいオンラインRCAフレームワークであるCORALを提案する。 CORALは、トリガーポイント検出、インクリメンタル・ディセンブル因果グラフ学習、ネットワーク伝搬ベースの根本原因特定からなる。トリガーポイント検出コンポーネントは、システムの状態遷移を自動的かつほぼリアルタイムで検出することを目的としている。これを実現するために、多変量特異スペクトル解析と累積和統計に基づくオンライントリガーポイント検出アプローチを開発する。RCAモデルを効率的に更新するために、状態不変情報と状態依存情報を切り離すインクリメンタルディセンショナル因果グラフ学習アプローチを提案する。その後、CORALは更新された因果関係グラフに再起動のあるランダムウォークを適用し、根本原因を正確に特定する。オンラインRCAプロセスは、因果関係グラフと生成された根本原因リストが収束した時点で終了する。事例を含む3つの実世界データセットでの広範な実験により、提案するフレームワークの有効性と優位性が実証された。