# 不均衡障害分類 ## 定義 不均衡障害分類(Imbalanced Fault Classification)は、マイクロサービスシステムにおける障害箇所特定・障害種別分類において、**変更後サービス(新規デプロイや設定変更後のサービス)**の特定障害種別のサンプル数が極端に少ないことで生じる機械学習上の問題である。通常の不均衡問題(正常サンプル多・障害サンプル少)に加え、**障害サンプル間の不均衡**(既存サービスの障害は多数例あるが、新規デプロイサービスの障害は 1〜数件)という二重構造を持つ。(Source: [[@2024__ASE__SLIM - A scalable and interpretable light-weight fault localization algorithm for imbalanced data in microservice]]) Google SRE Book は「障害の約 70% がサービス変更に起因する」と指摘しており、変更後サービスの障害対応は実務上の重要課題である。 ## 問題の二重構造 1. **第一の不均衡**: 正常サンプル数 ≫ 障害サンプル数(ダウンサンプリング・オーバーサンプリングで対処可能) 2. **第二の不均衡**: 新規サービスの障害サンプル数 ≪ 既存サービスの障害サンプル数(**再サンプリングでは対処困難**。サンプルが 1〜2 件しかない状態では SMOTE がノイズを増やすだけで改善しない) ## 横断的知見 - **再サンプリング(SMOTE)は変更後サービスの不均衡問題に対してほぼ効果がなく、むしろ悪化する場合がある**: SLIM の不均衡実験では、SMOTE を各手法に適用しても精度改善はわずかで、Seer では `docker005` の障害で精度が低下した。障害サンプルが 1〜2 件の状態では合成サンプルがノイズとして機能する。この観察は現時点で SLIM 単一ソースによるものであり、他ソースとの突き合わせで一般化が必要。(Source: [[@2024__ASE__SLIM - A scalable and interpretable light-weight fault localization algorithm for imbalanced data in microservice]]) - **F1 スコアを直接最大化する学習目標の設定が、精度・誤り率ベースの学習目標より不均衡問題に適合する**: 精度と誤り率は多数クラスに支配されるが、F1 スコアは少数クラスの再現率と適合率を同時に考慮する。これを劣モジュラ最適化で近似求解する SLIM のアプローチは、再サンプリングよりアルゴリズム設計レベルで不均衡問題に対処する。(Source: [[@2024__ASE__SLIM - A scalable and interpretable light-weight fault localization algorithm for imbalanced data in microservice]]) ## 未解決の問い - 第二の不均衡(障害間不均衡)を扱う手法は SLIM 以外に存在するか。分野横断(医療・金融の少数クラス分類)の手法はマイクロサービス障害にどこまで転用できるか。 - 変更後サービスで観測された障害が 1 件のみの場合に有効な学習アプローチは何か。SLIM でも 2 件必要であるため、1 件での対応はゼロショット/フューショット学習の問題として再定式化できるか。 - 連続的なデプロイ(CI/CD)環境では障害ラベルの付与自体が遅延する。ラベルなし状態でのオンライン学習と、ラベル到着後の増分更新をどう設計するか。 - 大規模システム(Dataset D: 2173 サービス)では特徴量が 12,000 次元に達する。高次元不均衡データにおける特徴量選択と不均衡補正の最適な組み合わせは何か。 ## 関連 - 上位概念: [[Fault Localization]] / [[AIOps]] / [[マイクロサービスアーキテクチャ]] - 関連概念: [[根本原因分析]] / [[異常検知]] - 主要ソース: [[@2024__ASE__SLIM - A scalable and interpretable light-weight fault localization algorithm for imbalanced data in microservice]] ## 出典 - [[@2024__ASE__SLIM - A scalable and interpretable light-weight fault localization algorithm for imbalanced data in microservice]](§1 Introduction、§2.4 Service Change の課題、§4.4 不均衡実験)