2025__arXiv__Simplifying Root Cause Analysis in Kubernetes with StateGraph and LLM

## Memo - StateGraph/MetaGraphをNeo4jに構築しGPT-4oモジュールを連携させたSynergyRCAの構成と精度指標、平均約2分の解析時間を把握。 ## Memo with LLM ### 論文情報 - タイトル: Simplifying Root Cause Analysis in Kubernetes with StateGraph and LLM. - 著者と所属: Yong Xiang（清華大学）、Charley Peter Chen（Harmonic Inc）、Liyi Zeng（鵬城実験室）、Wei Yin／Xin Liu／Wei Xu（清華大学）、Hu Li（Independent）。 - カンファレンス/ジャーナル名: arXiv (cs.DC, cs.AI, cs.SE)。 - 発表年: 2025年（v1投稿は2025年6月3日）。 ### 論文概要 SynergyRCAは、Kubernetesの運用データをStateGraphとMetaGraphに整理し、LLMモジュールを通じてグラフ依存性を探索・照合することで、エラーから根本原因までのメタパスと診断報告を自動生成する。二つの実運用クラスタで平均精度0.88/0.92と平均約2分の解析時間を達成し、新たな原因タイプも検出できたと報告している。 ### 詳細解説 #### 問題設定 KubernetesのイベントログやStateJSONは多様なリソース種と非同期状態を含み、エラー文と実際の状態の不整合やスナップショット粒度の違いが根本原因分析を難しくする。本研究はエラー発生時刻・ネームスペース・メッセージを起点に、srcKind→destKindを推論しつつ状態依存を探索できるRCAを目指す。 #### 提案手法 SynergyRCAは(1) StateGraphでエンティティとスナップショットの時間・空間依存を表現し、(2) MetaGraphでエンティティ種間のメタパスを抽出、(3) GPT-4oベースのTriage/PathQueryGen/StateChecker/ReportGen/ReportQualityChecker各モジュールがsrcKind推論→Cypher生成→状態検証→報告→品質判定を繰り返す。メタパスをCypherに変換するPathQueryGenやStateCheckerのJSON厳格指示により、LLM出力の一貫性と幻覚抑制を図る。 #### 新規性グラフRAGを用いたLLM主導のRCAを構成し、StateGraph/MetaGraphでランタイム依存を動的に捕捉してLLMを保護するアーキテクチャ、専門家ヒューリスティクスを取り込んだプロンプト設計、RCAレポートと修復コマンドまで一気通貫に生成する点が主な貢献として整理されている。 #### 実験設定 GPT-4oとNeo4jをAzure/Assistants APIで連携し、27ノード(v1.18)・1週間分13.2GBと88ノード(v1.21)・6か月118.8GBのクラスタからStateGraphを構築、SREがラベル付けしたFailedCreate/FailedMount/FailedSchedulingなど多様なインシデントを評価対象とした。 #### 実験結果エラー例あたり最大3試行でPrecision 0.88 (dataset-1) / 0.92 (dataset-2) を記録し、FailedMount-NoSuchFileDir等は1.00精度、UnboundPVCなどスナップショット不整合のあるケースは0.26〜0.46と課題が残ると分析。モジュール別ではTriage精度0.89〜0.95、PathQueryGen 0.95、ReportGenコマンド精度0.94〜0.97、ReportQualityCheckerのFPR0.07〜0.10。平均解析時間は約2分で、トークンコストは7.3万〜16.1万（約$0.19〜$0.41）と報告され、入力トークンが全体の99%を占める。 ## Abstract [[Kubernetes]]は状態調整を通じてクラスタ管理ロジックを維持する複雑な分散システムだが、予期せぬ障害やネットワーク障害、非同期性のために状態整合性の維持は困難であり、運用停止や経済損失につながる。この課題に対処するため、我々はStateGraphで空間・時間的関係を捉え、MetaGraphでエンティティ間接続を整理し、LLMが最も関連性の高いリソースを予測してこれらのグラフを照会するSynergyRCAを提案する。二つの本番クラスタのデータセットで評価した結果、多数の既存・新規の根本原因を高い効率と精度で特定でき、平均約2分で原因に到達し、約0.90の精度を達成した。