@2021__TIST__A Survey of AIOps Methods for Failure Management

> [!abstract] 概要(arXiv abstract の日本語訳) > 現代社会は、複雑かつ分散した計算システムへと一層移行しつつある。これらシステムの規模と複雑さの増大は、日常的な監視と修復を行う O&M チームに負荷を強い、現代アプリケーションに求められる信頼性・拡張性の高まりと矛盾する。このため、自動化・知的な監視システムの研究は、応用 IT 産業と学術界の双方で大きな関心を集めている。Artificial Intelligence for IT Operations (AIOps) は、機械学習・AI・ビッグデータを用いて現代 IT 管理の課題に取り組む手段として提案されてきた。しかし AIOps は研究対象として依然として未整理かつ未開拓であり、データ要件・目標・構成要素に基づく寄与の分類規約が欠落している。本論文では AIOps の中でも Failure Management(FM) に焦点を当て、介入時期(time intervention window) と取り組む対象問題を基準に 5 カテゴリ・14 サブカテゴリを定義する。100 件の FM 解法を、適用要件と達成された定量結果を中心にレビューし、AIOps 解法の効果的な適用を促進する。最後に、AIOps が扱う領域の現在の課題を論じ、AI ベース failure management の将来動向を素描する。 ## 論文情報 - タイトル: A Survey of AIOps Methods for Failure Management - 著者: [[Paolo Notaro]](TU Munich / Huawei Munich Research Center)、[[Jorge Cardoso]]([[University of Coimbra]] / Huawei Munich Research Center)、[[Michael Gerndt]]([[TU Munich]]) - 媒体: ACM Transactions on Intelligent Systems and Technology (TIST), Vol. 12, No. 6, Article 81 (Nov 2021), 45 ページ - DOI: 10.1145/3483424 - Companion mapping study: arXiv:2012.09108(Notaro et al. の同種別研究) ## 概要 AIOps を「IT 運用への AI 応用」と捉え、その内部を **failure management** と **resource provisioning** の 2 マクロ領域に分解する。本論文は前者に集中し、介入時期に従って proactive(failure avoidance: prevention・online prediction)と reactive(failure tolerance: detection・RCA・remediation)の 5 カテゴリと 14 サブカテゴリへ細分する taxonomy を提示する。systematic mapping study(SMS)で集めた 1,086 件から 100 件を選定し、AI 手法・データソース・対象構成要素・定量結果を表として一覧化したうえで、各サブカテゴリの代表手法を解説する。最後に、サブカテゴリ間の研究密度のアンバランス(detection・RCA・prediction に集中、prevention・remediation で停滞)、マルチモーダル化の遅れ、ベンチマーク不在、仮想化対応の不足を未解決課題として整理し、AIOps の将来研究方針を示す。 **Figure 1: 図** ![[_attachments/notaro-2021-aiops-survey/fig1-figure.png]] (Figure 1. Total number of publications related to AIOps analyzed in this survey by year of publication を示す。) **Figure 2: 分類** ![[_attachments/notaro-2021-aiops-survey/fig2-taxonomy.png]] (Figure 2. Taxonomy of AIOps as observed in the identified contributions. In the red box, the focus of this survey に関する分類を示す。) ## 問題設定 - **目的**: AIOps の Failure Management 領域に限定し、知見が散在しがちな寄与を介入時期と対象問題の 2 軸で系統化、適用要件と定量結果に基づくリファレンス索引を提供すること。 - **入力**: 著者らの先行 SMS([113]) で得た AIOps 1,086 件のメタデータと本文。 - **出力**: (a) AIOps taxonomy(Figure 2、proactive/reactive 軸つき)、(b) 5 カテゴリ・14 サブカテゴリの分類体系、(c) 100 件の代表手法を AI 手法/データソース/対象構成要素別に整理した Table 4・Table 8、(d) 領域横断の動向と将来課題。 - **前提**: AIOps を「ビッグデータ・ML・分析の IT 運用適用」(Gartner 2017)として定義し、error / failure / fault は Salfner et al. の慣用(error は状態逸脱、failure はサービス逸脱の発露、fault/root cause は原因)に従う。 ## 提案手法本論文は新規モデルでなく **taxonomy + reference index** を成果物とする。 - **AIOps 全体地図(Figure 2)**: 上位を failure management / resource provisioning に分け、failure management 配下を proactive(failure avoidance) と reactive(failure tolerance) に二分。赤枠が本サーベイのスコープ。 - **5 カテゴリ・14 サブカテゴリ**: - **Failure Prevention**(§4.1, proactive): software defect prediction (SDP)、fault injection、software aging and rejuvenation、checkpointing。 - **Online Failure Prediction**(§4.2, proactive): hardware failure prediction、system failure prediction。 - **Failure Detection**(§4.3, reactive): anomaly detection、internet traffic classification、log enhancement。 - **Root-cause Analysis**(§4.4, reactive): fault localization、root-cause diagnosis、RCA-supporting tools(retrieval/clustering)。 - **Remediation**(§4.5, reactive): incident triage、solution recommendation、recovery。 - **データソース分類(§3.3)**: source code・testing resources・system metrics・KPI/SLO data・network traffic・topology・incident reports・event logs・execution traces の 9 種を定義し、Table 8 で論文ごとに〇を付与。 - **対象構成要素**: source code・application(software)・hardware・network・datacenter の 5 種で整理。 - **評価指標(§3.2)**: MSE、accuracy、precision/recall/F1、TNR/FPR、AUCROC を共通通貨として横断比較。online prediction では lead time・prediction window・warning time も導入する(twarn < tlead の制約)。 - **解説の粒度**: 各サブカテゴリで代表手法を 3〜10 件解説。SDP では code metrics(McCabe/Halstead/CK)→ AST/DBN/CNN という時系列、hardware failure prediction では SMART → HMM/SVM → RNN/LSTM の系譜、anomaly detection では Magpie/PCA → FSM → DeepLog/LogAnomaly/LogRobust/MSCRED/OmniAnomaly/USAD という DL 化の流れを追う。 ## 新規性 - **整理の射程**: 既存サーベイは (a) 単一タスク(anomaly detection・fault diagnosis 等)か (b) AIOps の一般概念のいずれかに偏っており、failure management を網羅したものは Mukwevho & Celik [99]、Salfner et al. [122] など限られた数件で、AI に閉じた包括的整理は本論が初。クラウド限定でない点、faults でなく failures(発露) を整理軸にする点でも差別化される。 - **二軸分類**: 介入時期(proactive/reactive)と対象問題(14 サブカテゴリ)の 2 軸でカテゴライズし、データソース × 対象構成要素の Table 8 と組み合わせる。これにより「自分の手元にある signal で実装可能な手法」を逆引きできる索引になる。 - **定量結果の併記**: 各手法解説に precision・recall・F1・detection rate・FPR・コスト削減量(checkpointing の −25% 等)などの具体数値を必ず付して、横断比較の手掛かりとする。 ## 実験設定本論文は手法提案ではなく **systematic mapping study (SMS)** に基づくレビューであり、独自実験は伴わない。文献収集の手続きと選定は companion paper(arXiv:2012.09108)に詳述。 - 母集団: AIOps に関する 1,086 件の寄与。 - 選定: failure management の 5 カテゴリ全て・14 サブカテゴリ全てをカバーするように 100 件を選択。 - 評価通貨: 著者らが §3.2 で定義した指標(MSE・accuracy・P/R/F1・FPR/TNR・AUCROC・lead/prediction/warning time)。 ## 実験結果 - **領域別の偏り**: failure detection 226 件 (33.7%) > RCA 179 件 (26.7%) > online failure prediction 177 件 (26.4%) ≫ failure prevention 71 件 (10.6%) > remediation 17 件 (2.5%)。2018 年以降では prevention 11 件・remediation 5 件で更に縮退。 - **代表的数値**(本文引用): - SDP: SVM(Elish et al. [42]) recall ≥ 0.994 / precision ≥ 0.8495 / F-score ≥ 0.916; DBN(Wang et al. [141]) cross-project F=0.568 (+9.1pp vs TCA+); CNN(Li et al. [76]) within-project F=0.608 (+6.5pp vs [141])。 - SFI 削減: Natella et al. [105] が faultload を −22〜−69% 圧縮しつつ代表性 +4〜+26%。 - Software rejuvenation: Castelli et al. [21] が prediction-based 方針で downtime −60%(coverage 90%)、periodic でも −95% の同時故障吸収。 - Checkpointing: Jangjaimon et al. [62] の adaptive multi-level で実行時間 −25%・コスト −20%。 - HDD failure prediction: SVM(Zhu et al. [167]) recall 68.5% @ FAR 0.03%; NN recall 94.62〜100% @ FAR 0.48〜2.26%; RNN(Xu et al. [149]) detection 96.08〜97.78% @ FAR 0.004〜0.03%。Pinheiro et al. の Google ディスク調査では SMART 単独だと sensitivity 不足。 - System failure prediction: HORA([119]) recall 83.3% vs monolithic 69.2%、AUCROC 0.920 vs 0.837; Islam & Manivannan [61] task F1=0.87、job F1=0.81 で資源無駄を −12〜−20%。 - Anomaly detection(time-series): MSCRED [159] F1 0.82〜0.89; OmniAnomaly [131] F1 0.8599; USAD [7] F1 0.791 を OmniAnomaly 比で訓練時間 547× 高速化。Donut [150] F=0.75〜0.9。 - Log-based AD: DeepLog [41] が 100% recall 時に FAR を 38.2〜40.1% → 1.1〜1.7% へ削減; LogAnomaly [92] F1 0.8632; LogRobust [162] 不安定ログで F1=0.81 (+0.29)。 - Fault localization: Hotspot [132] 手動工程の 300× 高速化(時間 → 20s 平均); Squeeze [80] F1=0.86〜0.90; Sherlock [9] 350 → 16 候補に絞り検出 +32% vs Shrink [64]。 - RCA diagnosis: Pinpoint+DT/AR [26] 93% identification, FPR 23/50%; Shrink [64] 99.5% diagnosis; X-Ray [6] 17 中 16 で正解、平均 2 分・実行時 overhead 2.3%。 - Remediation: Shao et al. [126] の ticket routing で Mean Steps to Resolve 3.94 → 2.58 (−34.5%); Wang et al. [140] が repair-action 抽出 86.2% 精度; Facebook [82] が repair-action 推薦 50〜80% accuracy。 **Table 1: 表** ![[_attachments/notaro-2021-aiops-survey/table1-table.png]] (Table 1. 論文中の主要な表を示す。) **Table 2: 表** ![[_attachments/notaro-2021-aiops-survey/table2-table.png]] (Table 2. 論文中の主要な表を示す。) **Table 3: 表** ![[_attachments/notaro-2021-aiops-survey/table3-table.png]] (Table 3. 論文中の主要な表を示す。) ## 考察 - **proactive vs reactive の不均衡**: 検知・診断系は熱量が大きい一方で、prevention(特に model-based prevention や canary risk 評価)、recovery(自動修復への AI 適用)はほぼ手付かず。著者らは prevention を「現状はオンラインで現在/未来の状態しか見ない」と批判し、「システムの動作原理に関する仮定」を取り込む model-based prevention を将来課題に挙げる。 - **マルチモーダル化の遅れ**: Table 8 が示すとおり、ほとんどの手法は単一データソース(KPI のみ、ログのみ等)に依存。著者らはマルチモーダル化が「visibility と robustness の双方を改善する」と主張する。 - **ベンチマーク不在**: AIOps は活発だが「標準化された問題定義と公開ベンチ」がなく、論文間比較が困難であることを将来課題として強調。 - **DL の浸透**: 過去 10 年で SDP・anomaly detection・log-based detection・failure prediction(RNN/LSTM/VAE/ConvLSTM)に DL が浸透。次世代 DL のさらなる適用にも期待を述べる。 - **限界**: 寄与の選別は「representative 100」に絞っており、網羅性は同著者の SMS([113]) に依拠。本論自身は新規手法を提示しないので、各サブカテゴリの方向性合意を導く参照にはなるが、SOTA 主張の根拠とするには発表年(2021 まで)に限定される。LLM ベース AIOps(2023 以降)はスコープ外。 ## 強み / 弱点・課題 - **強み**: 2 軸 taxonomy + 9 種データソース + 14 サブカテゴリの三重整理で「読み筋」と「逆引き」の双方を支える。各サブカテゴリで数値付き比較を提示することで、適用判断に直接使える材料になっている。 - **弱点・限界**: - 寄与選別が著者基準で、検索戦略は別論文(arXiv:2012.09108)に依存。 - 2021 年時点のスナップショットで、LLM(GPT-4 / RAG / tool-augmented agent)以降の AIOps 動向は対象外。 - recovery サブカテゴリは「AI 寄与なし」とほぼ宣言され、実質 1 件([124])のみを扱う(taxonomy の網羅性のため残されている)。 - 用語の混在(error / failure / fault)が分野横断で続いており、本論はそれを整理するが普及は別問題。