Sparkジョブ異常診断 - yuuk1's Digital Garden

# Sparkジョブ異常診断 ## 定義 Spark ジョブ異常診断は、クラウドプラットフォーム上で動作する Apache Spark ジョブの実行時性能異常(実行時間の大幅超過・スロークエリ等)を自動検知し、原因メトリクスを因果推論によって特定する取り組みである。定期ジョブ(Recurrent Job)の実行履歴を正常ベースラインとして参照し、異常インスタンスの根本原因に対して定量的な寄与スコアを割り当てることを目標とする。([[@2025__AIDB__AutoDebugger - Efficient Root Cause Analysis for Anomaly Jobs]]) ## 横断的知見 - **ラベルデータ不足が Spark ジョブ診断の構造的障壁である**: AutoDebugger はラベル付き訓練データを必要とせず本番展開した。ラベルなし設計の実用的重要性は、同様に教師なし設定を採用する ε-Diagnosis([[根本原因分析]] §横断的知見)や、ドメイン知識外在化で補う D-Bot([[データベース自律診断]])と同型の課題解法として位置づけられる。(Source: [[@2025__AIDB__AutoDebugger - Efficient Root Cause Analysis for Anomaly Jobs]], [[@2019__WWW__ε-Diagnosis - Unsupervised and Real-time Diagnosis of Small-window Long-tail Latency in Large-scale Microservice Platforms]]) - **因果グラフの $O(2^N)$ 計算量が準リアルタイム診断の主障壁であり、分割統治が有効な回答である**: HybridRCA は顕著ノードを軸に大規模グラフをサブグラフへ分解し、$O(2^N)$ を $O(\sum_i 2^{n_i})$ に削減した。この方向性は FluxInfer([[根本原因分析]] §横断的知見)が「方向性推定を捨てる」設計で計算量を回避した事例と並ぶが、HybridRCA はグラフ構造を保持しつつ分解する点が異なる。(Source: [[@2025__AIDB__AutoDebugger - Efficient Root Cause Analysis for Anomaly Jobs]]) ## 未解決の問い - HybridRCA の顕著ノード定義は現状ではドメイン知識に依存した手動設定である。NOTEARS や FCI を用いた自動グラフ構築と統合した場合、顕著ノードの検出は自動化できるか。 - 「エグゼキュータ数変化」「データ量変化」「クエリ変動」の 5 合成シナリオは、実際の本番異常分布をどの程度カバーするか。30 件超の本番ジョブグループの異常原因分布(アイドル時間超過が支配的)との対応を評価した実験は未実施。 - Spark 以外の分散処理フレームワーク(Apache Flink・Presto 等)へ HybridRCA の分割統治設計を移植する際、因果グラフのノード構造はどの程度異なるか。RCAgent が Flink の OoD ジョブ診断に LLM を用いた事例([[根本原因分析]])との統合可能性はあるか。 - 主要根本原因がアイドル時間であるという本番知見は、ユーザーへのフィードバック(プロビジョニング設定の改善推奨等)に繋がるか。AutoDebugger の結果が自律データベース制御ループへどう送り込まれるかは論文中では将来計画として述べられるにとどまる。 ## 関連 - 親 concept: [[データベース自律診断]] / [[根本原因分析]] / [[AIOps]] - 隣接 concept: [[ドメイン別RCA]] / [[データベース O&M]] - ソース: [[@2025__AIDB__AutoDebugger - Efficient Root Cause Analysis for Anomaly Jobs]] ## 出典 - [[@2025__AIDB__AutoDebugger - Efficient Root Cause Analysis for Anomaly Jobs]] (AutoDebugger, HybridRCA, Microsoft Fabric Spark)