障害パターンプロファイリング

# 障害パターンプロファイリング Navigation: [[index]] | [[ポストモーテム]] | [[インシデント管理]] | [[根本原因分析]] ## 定義障害パターンプロファイリング（fault pattern profiling）とは、クラウドシステムのポストモーテム分析において、各インシデントを事前定義した**障害パターン**タクソノミの葉ノードに分類する作業である。障害パターンは「特定のオブジェクトに現れる異常な振る舞いの簡潔な表現」であり、障害名・典型的な現象例・障害許容措置・関連アラートなどを含む（例: CPU 過負荷、SSD 障害、電源不足）。この分類作業を通じて、信頼性チームは共通障害・脆弱コンポーネント・新たな障害傾向を体系的に把握でき、システム改善の優先度決定や将来のインシデント診断の参照基盤として機能する。(Source: [[@2024__ICSE-SEIP__FaultProfIT - Hierarchical Fault Profiling of Incident Tickets in Large-scale Cloud Systems]]) ### 障害パターンタクソノミの構造 Huawei Cloud（CloudA）の例では 5 階層ツリー構造を採用している: - **レベル 0**: Root - **レベル I**: 7 つの上位カテゴリ（Infrastructure and Sites / Clusters and Hosts / Customer Node / Load and Capacity / Business and Data / Dependencies / Disaster Recovery） - **レベル II〜IV**: コンポーネント・障害種別による細分化 - **葉ノード**: 334 の具体的障害パターンこの構造は「コンポーネント単位で障害を分割・グループ化する」原則に基づき構築されている。類似の障害現象を同一コンポーネント上のものとしてまとめ、類似パターンを共通オブジェクト単位で上位クラスに集約する。8 年以上の継続的精錬を経ており、障害注入やディザスタリカバリ設計にも応用されている。 ## 手動プロファイリングの課題 1. **インシデント件数の膨大さ**: 毎日数千件が報告されるため、ポストモーテムは深刻度の高いインシデント（S1/S2/S3）に偏り、S4/S5 の軽微インシデントは未分析のまま放置される。Microsoft Azure での調査では、OCE が割り当てた根本原因タグの 29% が誤りであった（AutoARTS, USENIX ATC '23）。 2. **ドメイン知識の要求**: タクソノミ全体と各インシデント内容の双方を深く理解する必要があり、単独エンジニアの能力を超える場合がある。 3. **タクソノミの変化**: 新規障害パターンの追加と既存階層関係の調整が継続的に行われ、手動作業の一貫性維持が困難。 ## 自動化アプローチ ### FaultProfIT（2024） [[@2024__ICSE-SEIP__FaultProfIT - Hierarchical Fault Profiling of Incident Tickets in Large-scale Cloud Systems|FaultProfIT]] は階層型テキスト分類（HTC）と階層誘導型対照学習を組み合わせた初の自動プロファイリング手法。 **主要コンポーネント**: - **インシデントエンコーダ**: MacBERT（BERT の多言語最適版）でインシデントコンテキスト（タイトル・症状・根本原因・緩和措置）をエンコード - **階層エンコーダ**: Graphormer（グローバルアテンション付き Transformer ベースのグラフ表現モデル）で障害パターンタクソノミ DAG をエンコード。ラベル埋め込みと記述テキスト埋め込みの和を入力特徴とする - **正サンプル生成**: アテンション重みで重要トークンを特定し、Gumbel-Softmax サンプリングで重要トークンのみからなるテキストを正サンプルとして構成 - **対照学習**: NT-Xent 損失で正ペアを近づけ負ペアを遠ざける **性能（Huawei Cloud 本番データ, 1,463 件ラベル付き）**: | 手法 | F1 | |---|---| | DPR（階層非考慮） | 54.1% | | MacBERT（フラット分類） | 60.1% | | ChatGLM 13B | 62.5% | | HiAGM（GCN 階層考慮） | 75.1% | | FaultProfIT（Graphormer 階層考慮） | **78.3%** | 6 ヶ月の本番稼働で 30+ サービスの 10,000+ インシデントを解析し、メモリ過負荷障害の傾向上昇を手動分析より早期に検知した実績がある。 ## 横断的知見 - **階層構造の活用が性能に直結する**: FaultProfIT（Graphormer 階層考慮）と HiAGM（GCN 階層考慮）の両者は、階層を無視する DPR・MacBERT・ChatGLM を F1 で 13〜24 ポイント上回った。障害パターン分類は葉ノードだけでなくタクソノミ全体の構造的知識が不可欠であることを示す（Source: [[@2024__ICSE-SEIP__FaultProfIT - Hierarchical Fault Profiling of Incident Tickets in Large-scale Cloud Systems]]）。 ## 未解決の問い - タクソノミが更新された場合（新規障害パターン追加・階層変更）に、FaultProfIT はどの程度の再訓練コストで適応できるか。ゼロショット・フューショット適応は可能か。 - 障害パターンプロファイリングと根本原因分析（RCA）の関係は。プロファイリング結果を RCA の事前情報として活用できるか。 - LLM（GPT-4 以降）による直接プロファイリングと、FaultProfIT のような専用分類器の性能比較はどうなるか。 ## 関連 - ソース: [[@2024__ICSE-SEIP__FaultProfIT - Hierarchical Fault Profiling of Incident Tickets in Large-scale Cloud Systems]] - 概念: [[ポストモーテム]] / [[インシデント管理]] / [[根本原因分析]] / [[障害傾向分析]] / [[クラウドインシデント]] / [[不均衡障害分類]] - MOC: [[structures/AIOps - Fault Localization - MOC|AIOps - Fault Localization MOC]] / [[notes/sre/Incident Management - MOC|Incident Management MOC]] ## 出典 - [[@2024__ICSE-SEIP__FaultProfIT - Hierarchical Fault Profiling of Incident Tickets in Large-scale Cloud Systems]] (Junjie Huang ほか, ICSE-SEIP 2024)