2025__AIDB__AutoDebugger - Efficient Root Cause Analysis for Anomaly Jobs

## Memo ## Memo with LLM ### 論文情報 - **論文のタイトル**: AutoDebugger: Efficient Root Cause Analysis for Anomaly Jobs (Extended Abstracts) - **著者と所属**: - Fathelrahman Ali (Google, Mountain View, CA) - Yiwen Zhu (Microsoft, Mountain View, CA) - Lie Jiang (Microsoft, Beijing, China) - Zhen Li (Microsoft, Beijing, China) - Manting Li (Microsoft, Beijing, China) - Kun Huang (Microsoft, Beijing, China) - Lijing Lin (Microsoft, Beijing, China) - Xiaolei Liu (Microsoft, Beijing, China) - Long Tian (Microsoft, Beijing, China) - Subru Krishnan (Microsoft, Barcelona, Spain) - **カンファレンス/ジャーナル名**: VLDB 2025 Workshop: Applied AI for Database Systems and Applications (AIDB 2025) - **発表年**: 2025 ### 論文概要本論文では、Microsoft Fabric環境におけるSparkジョブの実行時異常の理解を向上させ、自動化されたトリアージを促進するAutoDebuggerという自動化ツールを紹介している。AutoDebuggerは機械学習アルゴリズムとホワイトボックス予測モデルを活用し、Spark Metrics Serviceと統合して包括的なアナリティクスパイプラインを確立している。 ### 詳細解説 #### 問題設定クラウド環境の複雑なインフラストラクチャにおいて、Sparkジョブの性能問題を分析することは困難な課題である。入力データとしてSparkジョブの実行メトリクス（読み取り時間、割り当てられたコア数、シャッフル時間など40以上のメトリクス）を使用し、出力として異常ジョブの根本原因の特定と各要因の寄与度の定量化を行う。Microsoft Fabric環境では週に850以上の定期的なSparkジョブが実行され、そのうち100以上が異常を示し、一部は平均ジョブ持続時間を10,000%以上超過している。 #### 提案手法 HybridRCAという新しいアルゴリズムを提案している。従来のdo-calculusベースの治療効果手法は、すべての特徴の組み合わせを列挙する必要があり、計算複雑度がO(2^N)となる問題があった。HybridRCAは以下の改善を行っている： 1. **グラフ分解**：因果グラフを小さなサブグラフに分割 2. **プロミネントノード**：親ノードへの寄与を明示的に分離できる特別なノードを利用 3. **分割統治法**：大きなグラフを分析する代わりに、小さなサブグラフを個別に分析数式的には、観測可能な結果X₀に対する特徴uの因果的寄与を以下で表現する： S_G(u → X₀) 分解された各サブグラフでの計算複雑度は O(Σᵢ 2^nᵢ) となり、nᵢは i番目のサブグラフのノード数である。 #### 新規性従来のdo-calculusベースの根本原因分析手法と比較して、以下の新規性がある： 1. ドメイン知識を活用した因果グラフの構築 2. グラフ分解による計算効率の大幅な改善（10倍以上の高速化） 3. 決定的関係（ReadRowsとReadBytesなど）をO(1)で計算する手法 4. 線形関係を利用した分割統治アプローチ #### 実験設定 **実運用ワークロード**：30以上の実際のFabric定期ジョブグループ、2,000以上のジョブインスタンスを評価。各ジョブは50以上のインスタンスを持ち、少なくとも1つの異常を含む。 **合成シナリオ**：Microsoft Fabric Sparkの現実的な顧客使用パターンを模倣する5つの代表的なシナリオを作成： 1. Executor Downscaleシナリオ（8 → 3 executors） 2. Executor Upscaleシナリオ（3 → 8 executors） 3. Query Variationシナリオ（クエリ内容の日々の変動） 4. Data Scale-Upシナリオ（100GB → 1000GB） 5. Data Scale-Downシナリオ（1000GB → 100GB） #### 実験結果 **性能改善**：従来の因果構造手法による根本原因分析時間は異常ジョブ1件あたり平均147秒であったが、HybridRCAでは12秒に短縮された。 **精度**：少なくとも5%の寄与を持つ根本原因について、元のdo-calculusアルゴリズムとランキングの一貫性を保ち、平均誤差0.4%、最大絶対誤差5%を達成した。 **合成実験結果**：システムは全てのテストケースで正しい根本原因を一貫して特定し、実運用環境での展開に適した堅牢性と適合性を実証した。 ## Abstract 今日のクラウド環境の複雑なインフラストラクチャにおいて、[[Spark]]ジョブの性能問題を分析することは困難な課題です。本論文では、Sparkジョブの実行時異常の理解を向上させ、自動化されたトリアージを促進するために作られた自動化ツールAutoDebuggerを紹介します。AutoDebuggerは機械学習アルゴリズムをホワイトボックス予測モデルと組み合わせて活用し、Spark Metrics Serviceと統合して包括的なアナリティクスパイプラインを確立しています。AutoDebuggerは効率的に性能の外れ値を特定し、徹底的な根本原因分析を実施します。特に、AutoDebuggerは既存の根本原因分析（RCA）アルゴリズムを10倍以上高速化することで改善しています。実験では、実世界のMicrosoft Fabric Sparkジョブにおける異常の根本原因を特定するAutoDebuggerの有効性を検証し、スケーラビリティとほぼリアルタイムの分析機能を確保しています。