# ResilienceGuardian [[Guanglei He]]・[[Xiaohui Nie]]・[[Dan Pei]] ら([[Tsinghua University]] / [[BizSeer]])が ISSRE 2024 で提案したフレームワーク。 マイクロサービスシステムの障害耐性(fault resilience)を低下させる誤りソフトウェア変更(**ESCR**: Erroneous Software Changes that Reduce fault Resilience)を、本番展開前のステージング環境で自動検知する。 ## 構成 - **オフライン訓練フェーズ**: ステージング環境で ChaosBlade を用いて 8 種の典型障害を注入し、KPI セグメントペアを収集。データ拡張(ノイズ注入 + ノイズ強度スケーリング)で擬似ラベル付きデータを生成。障害ごとに 2 層 LSTM 分類器を訓練し、転移学習で訓練コストを約 8.73 倍削減する - **オンライン検知フェーズ**: 変更デプロイ後に障害を注入し、変更前後の KPI セグメントペアを生成・分類。C4(耐性低下)に分類された KPI から脆弱性スコア $vs_f$ を算出し、ひざ点法で閾値 $\theta$ を自動決定して ESCR を判定する - **オペレータ判断支援**: KPI レベル分析と集計結果をレポート化し、エンジニアの最終判断を補助する ## 性能 | データセット | F1 | 訓練時間(min) | 検知時間/変更(s) | |---|---|---|---| | HipsterShop (A) | 0.90 | 8.32 | 0.12 | | Train-Ticket (B) | 0.89 | 33.86 | 0.12 | 最高ベースライン Kontrast(F1=0.82)を上回りつつ、訓練時間を 97%以上削減。百万 KPI の検知を 48 秒で処理。 ## 関連 - 提案元論文: [[@2024__ISSRE__Guardian of the Resiliency - Detecting Erroneous Software Changes Before They Make Your Microservice System Less Fault-Resilient]] - 開発者: [[Guanglei He]] / [[Xiaohui Nie]] / [[Ruming Tang]] / [[Kun Wang]] / [[Zhaoyang Yu]] / [[Xidao Wen]] / [[Kanglin Yin]] / [[Dan Pei]] - 概念: [[障害耐性劣化変更検知]] / [[ソフトウェア変更管理]] / [[障害注入]]