LasRCA - yuuk1's Digital Garden

# LasRCA ## 概要 [[Yongqi Han]]・[[Qingfeng Du]](同済大学)らが ASE 2024 で提案したワンショット根本原因分析フレームワーク。各障害タイプに 1 件のみサンプルが存在するという極端な障害ラベル希少シナリオを想定し、LLM(GPT-4)と小型分類器の協調で**有効性とコストのトレードオフ**を実現する。ソースコードは公開済み。 ## 設計 **学習段階**: 小型分類器がワンショットサンプルで初期学習 → 高混乱サンプルを選択 → LLM 駆動集成ラベル付け(Algorithm 1) → 再学習のループ。SRE が LLM の幻覚を修正する任意介入機構を持つ。 **推論段階**: 小型分類器が予備 RCA(箇所特定と障害タイプ確率推定) → LLM が信頼度情報を組み込んで詳細判定と説明を生成 → SRE がレビューして障害サンプルを更新。 ## 主要コンポーネント - **LLM 駆動集成ラベル付け**: LLMFaultTypeMatching → LLMEntityLevelAnalysis → LLMGraphLevelAnalysis の 3 関数でエンティティ・グラフレベルの推論を行う - **小型分類器**: Transformer エンコーダ(特徴タイプ次元保持)+ GAT(システムトポロジによる障害伝播モデリング)で異種リソースエンティティのマルチモーダルデータを処理 - **高混乱サンプル選択**: エントロピーを混乱度として上位サンプルとそのサブグラフを選択 ## 性能公開データセット(HipsterShop、service/pod/node 3 エンティティタイプ): - データセット A: AC@1=79.54%、MiF1=0.5244(ベスト教師ありの AC@1=55.22% を大幅上回る) - LLM 駆動ラベル付けは手動ラベルの 3〜4 倍相当の効果 - 全件 LLM 依存比で関与エンティティを約 10 分の 1 に削減 ## 制約 - GPT-4 が必要。Mistral-7B・Gemma-7B では数値比較での幻覚が顕著で性能劣化 - 将来方向: GPT-4 の出力で小規模 LLM をファインチューニングしてコストを削減 ## 関連 - 原論文: [[@2024__ASE__The Potential of One-Shot Failure Root Cause Analysis - Collaboration of the Large Language Model and Small Classifier]] - 提案者: [[Yongqi Han]], [[Qingfeng Du]], [[Tongji University]] - 概念: [[ワンショットRCA]], [[LLMによる根本原因分析]] - 比較対象: [[CIRCA]], [[DiagFusion]] - 同著者グループの先行研究: [[@2024__TSC__Holistic Root Cause Analysis for Failures in Cloud-Native Systems Through Observability Data]](HolisticRCA)