ワンショットRCA - yuuk1's Digital Garden

# ワンショットRCA ## 定義ワンショット根本原因分析(One-Shot RCA)は、各障害タイプに対して**学習サンプルが 1 件のみ**という極端なラベル希少条件でシステム障害の根本原因を特定するタスクである。クラウドネイティブシステムでは障害ラベルの取得にドメイン知識と時間を要するため、現実的に利用可能なラベルが数件程度に限られる状況が頻繁に発生する。ワンショット設定はその下限として定義される([[@2024__ASE__The Potential of One-Shot Failure Root Cause Analysis - Collaboration of the Large Language Model and Small Classifier]])。 RCA における標準的な教師あり手法は通常数百〜数千件のラベル付きサンプルを要求するが、ワンショット RCA では各障害タイプに 1 件のみのサンプルから始めて、未ラベルデータを活用して有用な分類器を育てることが目標となる。 ## 横断的知見 - **教師あり・半教師あり・事前学習の既存手法はすべてワンショット設定で根本的に失敗する**: LasRCA の動機実験(Attempt 1〜3)が示したように、(1) TS2Vec 事前学習 + ファインチューニングは RCA 関連特徴と教師なし仮定の不一致で MiF1=0.0146 に留まり、(2) FixMatch 半教師あり学習は MiF1=0.4573 と限定的改善にとどまり、(3) LLM 単体は有効だが 1 エンティティあたり約 $0.04・15 秒というコストが数十〜数百エンティティのスケールで非現実的となる。(Source: [[@2024__ASE__The Potential of One-Shot Failure Root Cause Analysis - Collaboration of the Large Language Model and Small Classifier]] §2.2) - **LLM は「有用な意思決定者」ではなく「効率的なラベラー」として活用する設計が有効**: LasRCA が示した設計原則は、LLM を推論全体のメインエンジンではなく「混乱度の高いサンプルへのラベル付け担当」に限定することで、小型分類器の反復学習を促進しコストを抑制するというものである。LLM 駆動ラベル付けは先行知識なしの手動ラベル付けの 3〜4 倍相当の効果を達成した。(Source: [[@2024__ASE__The Potential of One-Shot Failure Root Cause Analysis - Collaboration of the Large Language Model and Small Classifier]] §5.4) - **LLM の幻覚は数値比較タスクで顕著に現れ、大規模モデルとの性能差が実用的な制約となる**: Mistral-7B や Gemma-7B は数値の増減傾向の判定で誤りを犯し、「上昇傾向のない数値列を上昇している」と誤認する幻覚が観察された。一方 GPT-4 は同一入力で正確な判定を行った。LLM ラベラーとして使用する場合のモデル選択は精度の律速因子となる。(Source: [[@2024__ASE__The Potential of One-Shot Failure Root Cause Analysis - Collaboration of the Large Language Model and Small Classifier]] §6.1, 図 11) ## 未解決の問い - **小規模 LLM への蒸留によるコスト削減**: GPT-4 が生成したラベルと説明で小規模 LLM をファインチューニングすることで実用的コスト域に収めることができるか。どの規模から精度が実用水準に達するか。 - **ワンショットを超えた few-shot 設定との性能差の定量化**: ラベル数が 2 件・3 件・5 件と増加するにつれて性能がどう変化するか。ワンショット設定での LasRCA の有効性がより多いラベルを持つ設定でも優位性を維持するか。 - **異種システムへの汎化**: HipsterShop(10 マイクロサービス)で検証されたが、より大規模かつ異なるアーキテクチャ(数百サービス、複合クラウド環境)での適用可能性は未検証。 - **LLM ラベル付けの品質と幻覚発生率の系統的評価**: LLM が生成するラベルの正解率と幻覚発生率はデータセットや障害タイプによってどう変動するか。SRE の修正介入が現実的に何件程度のラベルに必要かの実測値。 ## 関連 - 親概念: [[根本原因分析]] - LLM 活用: [[LLMによる根本原因分析]] - 実装: [[LasRCA]] - 構造的関連: [[マイクロサービスアーキテクチャ]] ## 出典 - [[@2024__ASE__The Potential of One-Shot Failure Root Cause Analysis - Collaboration of the Large Language Model and Small Classifier]](LasRCA, Han+ ASE 2024, §2〜§5)