## Memo ## Memo with LLM ## Abstract 根本原因分析(RCA)は、障害検出とシステム復旧のギャップを埋めるため、分散データシステムの保守・運用において不可欠な役割を果たす。 既存の研究では、主に多次元的な原因特定やグラフベースの原因特定が研究されている。 本稿では、最近開発された説明可能なAI([[XAI]])のフレームワークをRCAの目的に利用する可能性を開く。 特にBALANCE(BAyesian Linear AttributioN for root CausE localization)を提案する。BALANCEは、XAIにおけるアトリビューションのレンズを通してRCAの問題を定式化し、根本原因候補の行動によってターゲットKPIの異常を説明しようとするものである。 BALANCEは3つの革新的な構成要素からなる。 第一に、ベイズ型多重共線特徴選択(BMFS)モデルを提案し、スパース性を促進すると同時に、根本原因候補間の相関に注意を払いながら、前方法で根本原因候補からターゲットKPIを予測する。 第二に、帰属分析を導入し、後方法で各候補の帰属スコアを計算する。 第三に、複数のKPIが存在する場合、各KPIに関連する推定根本原因を統合する。 提案するBALANCE手法を、1つの合成データセットと、3つの実世界RCAタスク([[2021__VLDB__Exathlon - A Benchmark for Explainable Anomaly Detection over Time Series|Exathlon]]の不良SQL特定、コンテナ障害特定、障害タイプ診断)で広範囲に評価する。 その結果、BALANCEは、最小の実行時間で、最先端の(SOTA)手法を精度面で上回り、実タスクではSOTA手法よりも少なくとも6%顕著に高い精度を達成した。 BALANCEは、実世界のRCA問題に取り組むために実運用に導入されており、オンライン結果は、分散データシステムにおけるリアルタイム診断への利用をさらに支持している。