> [!abstract] 概要(arXiv abstract の日本語訳)
> 現代社会は、複雑かつ分散した計算システムへと一層移行しつつある。これらシステムの規模と複雑さの増大は、日常的な監視と修復を行う O&M チームに負荷を強い、現代アプリケーションに求められる信頼性・拡張性の高まりと矛盾する。このため、自動化・知的な監視システムの研究は、応用 IT 産業と学術界の双方で大きな関心を集めている。Artificial Intelligence for IT Operations (AIOps) は、機械学習・AI・ビッグデータを用いて現代 IT 管理の課題に取り組む手段として提案されてきた。しかし AIOps は研究対象として依然として未整理かつ未開拓であり、データ要件・目標・構成要素に基づく寄与の分類規約が欠落している。本論文では AIOps の中でも Failure Management(FM) に焦点を当て、介入時期(time intervention window) と取り組む対象問題を基準に 5 カテゴリ・14 サブカテゴリを定義する。100 件の FM 解法を、適用要件と達成された定量結果を中心にレビューし、AIOps 解法の効果的な適用を促進する。最後に、AIOps が扱う領域の現在の課題を論じ、AI ベース failure management の将来動向を素描する。
## 論文情報
- タイトル: A Survey of AIOps Methods for Failure Management
- 著者: [[Paolo Notaro]](TU Munich / Huawei Munich Research Center)、[[Jorge Cardoso]]([[University of Coimbra]] / Huawei Munich Research Center)、[[Michael Gerndt]]([[TU Munich]])
- 媒体: ACM Transactions on Intelligent Systems and Technology (TIST), Vol. 12, No. 6, Article 81 (Nov 2021), 45 ページ
- DOI: 10.1145/3483424
- Companion mapping study: arXiv:2012.09108(Notaro et al. の同種別研究)
## 概要
AIOps を「IT 運用への AI 応用」と捉え、その内部を **failure management** と **resource provisioning** の 2 マクロ領域に分解する。本論文は前者に集中し、介入時期に従って proactive(failure avoidance: prevention・online prediction)と reactive(failure tolerance: detection・RCA・remediation)の 5 カテゴリと 14 サブカテゴリへ細分する taxonomy を提示する。systematic mapping study(SMS)で集めた 1,086 件から 100 件を選定し、AI 手法・データソース・対象構成要素・定量結果を表として一覧化したうえで、各サブカテゴリの代表手法を解説する。最後に、サブカテゴリ間の研究密度のアンバランス(detection・RCA・prediction に集中、prevention・remediation で停滞)、マルチモーダル化の遅れ、ベンチマーク不在、仮想化対応の不足を未解決課題として整理し、AIOps の将来研究方針を示す。
## 問題設定
- **目的**: AIOps の Failure Management 領域に限定し、知見が散在しがちな寄与を介入時期と対象問題の 2 軸で系統化、適用要件と定量結果に基づくリファレンス索引を提供すること。
- **入力**: 著者らの先行 SMS([113]) で得た AIOps 1,086 件のメタデータと本文。
- **出力**: (a) AIOps taxonomy(Figure 2、proactive/reactive 軸つき)、(b) 5 カテゴリ・14 サブカテゴリの分類体系、(c) 100 件の代表手法を AI 手法/データソース/対象構成要素別に整理した Table 4・Table 8、(d) 領域横断の動向と将来課題。
- **前提**: AIOps を「ビッグデータ・ML・分析の IT 運用適用」(Gartner 2017)として定義し、error / failure / fault は Salfner et al. の慣用(error は状態逸脱、failure はサービス逸脱の発露、fault/root cause は原因)に従う。
## 提案手法
本論文は新規モデルでなく **taxonomy + reference index** を成果物とする。
- **AIOps 全体地図(Figure 2)**: 上位を failure management / resource provisioning に分け、failure management 配下を proactive(failure avoidance) と reactive(failure tolerance) に二分。赤枠が本サーベイのスコープ。
- **5 カテゴリ・14 サブカテゴリ**:
- **Failure Prevention**(§4.1, proactive): software defect prediction (SDP)、fault injection、software aging and rejuvenation、checkpointing。
- **Online Failure Prediction**(§4.2, proactive): hardware failure prediction、system failure prediction。
- **Failure Detection**(§4.3, reactive): anomaly detection、internet traffic classification、log enhancement。
- **Root-cause Analysis**(§4.4, reactive): fault localization、root-cause diagnosis、RCA-supporting tools(retrieval/clustering)。
- **Remediation**(§4.5, reactive): incident triage、solution recommendation、recovery。
- **データソース分類(§3.3)**: source code・testing resources・system metrics・KPI/SLO data・network traffic・topology・incident reports・event logs・execution traces の 9 種を定義し、Table 8 で論文ごとに 〇 を付与。
- **対象構成要素**: source code・application(software)・hardware・network・datacenter の 5 種で整理。
- **評価指標(§3.2)**: MSE、accuracy、precision/recall/F1、TNR/FPR、AUCROC を共通通貨として横断比較。online prediction では lead time・prediction window・warning time も導入する(twarn < tlead の制約)。
- **解説の粒度**: 各サブカテゴリで代表手法を 3〜10 件解説。SDP では code metrics(McCabe/Halstead/CK)→ AST/DBN/CNN という時系列、hardware failure prediction では SMART → HMM/SVM → RNN/LSTM の系譜、anomaly detection では Magpie/PCA → FSM → DeepLog/LogAnomaly/LogRobust/MSCRED/OmniAnomaly/USAD という DL 化の流れを追う。
## 新規性
- **整理の射程**: 既存サーベイは (a) 単一タスク(anomaly detection・fault diagnosis 等)か (b) AIOps の一般概念のいずれかに偏っており、failure management を網羅したものは Mukwevho & Celik [99]、Salfner et al. [122] など限られた数件で、AI に閉じた包括的整理は本論が初。クラウド限定でない点、faults でなく failures(発露) を整理軸にする点でも差別化される。
- **二軸分類**: 介入時期(proactive/reactive)と対象問題(14 サブカテゴリ)の 2 軸でカテゴライズし、データソース × 対象構成要素の Table 8 と組み合わせる。これにより「自分の手元にある signal で実装可能な手法」を逆引きできる索引になる。
- **定量結果の併記**: 各手法解説に precision・recall・F1・detection rate・FPR・コスト削減量(checkpointing の −25% 等)などの具体数値を必ず付して、横断比較の手掛かりとする。
## 実験設定
本論文は手法提案ではなく **systematic mapping study (SMS)** に基づくレビューであり、独自実験は伴わない。文献収集の手続きと選定は companion paper(arXiv:2012.09108)に詳述。
- 母集団: AIOps に関する 1,086 件の寄与。
- 選定: failure management の 5 カテゴリ全て・14 サブカテゴリ全てをカバーするように 100 件を選択。
- 評価通貨: 著者らが §3.2 で定義した指標(MSE・accuracy・P/R/F1・FPR/TNR・AUCROC・lead/prediction/warning time)。
## 実験結果
- **領域別の偏り**: failure detection 226 件 (33.7%) > RCA 179 件 (26.7%) > online failure prediction 177 件 (26.4%) ≫ failure prevention 71 件 (10.6%) > remediation 17 件 (2.5%)。2018 年以降では prevention 11 件・remediation 5 件で更に縮退。
- **代表的数値**(本文引用):
- SDP: SVM(Elish et al. [42]) recall ≥ 0.994 / precision ≥ 0.8495 / F-score ≥ 0.916; DBN(Wang et al. [141]) cross-project F=0.568 (+9.1pp vs TCA+); CNN(Li et al. [76]) within-project F=0.608 (+6.5pp vs [141])。
- SFI 削減: Natella et al. [105] が faultload を −22〜−69% 圧縮しつつ代表性 +4〜+26%。
- Software rejuvenation: Castelli et al. [21] が prediction-based 方針で downtime −60%(coverage 90%)、periodic でも −95% の同時故障吸収。
- Checkpointing: Jangjaimon et al. [62] の adaptive multi-level で実行時間 −25%・コスト −20%。
- HDD failure prediction: SVM(Zhu et al. [167]) recall 68.5% @ FAR 0.03%; NN recall 94.62〜100% @ FAR 0.48〜2.26%; RNN(Xu et al. [149]) detection 96.08〜97.78% @ FAR 0.004〜0.03%。Pinheiro et al. の Google ディスク調査では SMART 単独だと sensitivity 不足。
- System failure prediction: HORA([119]) recall 83.3% vs monolithic 69.2%、AUCROC 0.920 vs 0.837; Islam & Manivannan [61] task F1=0.87、job F1=0.81 で資源無駄を −12〜−20%。
- Anomaly detection(time-series): MSCRED [159] F1 0.82〜0.89; OmniAnomaly [131] F1 0.8599; USAD [7] F1 0.791 を OmniAnomaly 比で訓練時間 547× 高速化。Donut [150] F=0.75〜0.9。
- Log-based AD: DeepLog [41] が 100% recall 時に FAR を 38.2〜40.1% → 1.1〜1.7% へ削減; LogAnomaly [92] F1 0.8632; LogRobust [162] 不安定ログで F1=0.81 (+0.29)。
- Fault localization: Hotspot [132] 手動工程の 300× 高速化(時間 → 20s 平均); Squeeze [80] F1=0.86〜0.90; Sherlock [9] 350 → 16 候補に絞り検出 +32% vs Shrink [64]。
- RCA diagnosis: Pinpoint+DT/AR [26] 93% identification, FPR 23/50%; Shrink [64] 99.5% diagnosis; X-Ray [6] 17 中 16 で正解、平均 2 分・実行時 overhead 2.3%。
- Remediation: Shao et al. [126] の ticket routing で Mean Steps to Resolve 3.94 → 2.58 (−34.5%); Wang et al. [140] が repair-action 抽出 86.2% 精度; Facebook [82] が repair-action 推薦 50〜80% accuracy。
## 考察
- **proactive vs reactive の不均衡**: 検知・診断系は熱量が大きい一方で、prevention(特に model-based prevention や canary risk 評価)、recovery(自動修復への AI 適用)はほぼ手付かず。著者らは prevention を「現状はオンラインで現在/未来の状態しか見ない」と批判し、「システムの動作原理に関する仮定」を取り込む model-based prevention を将来課題に挙げる。
- **マルチモーダル化の遅れ**: Table 8 が示すとおり、ほとんどの手法は単一データソース(KPI のみ、ログのみ等)に依存。著者らはマルチモーダル化が「visibility と robustness の双方を改善する」と主張する。
- **ベンチマーク不在**: AIOps は活発だが「標準化された問題定義と公開ベンチ」がなく、論文間比較が困難であることを将来課題として強調。
- **DL の浸透**: 過去 10 年で SDP・anomaly detection・log-based detection・failure prediction(RNN/LSTM/VAE/ConvLSTM)に DL が浸透。次世代 DL のさらなる適用にも期待を述べる。
- **限界**: 寄与の選別は「representative 100」に絞っており、網羅性は同著者の SMS([113]) に依拠。本論自身は新規手法を提示しないので、各サブカテゴリの方向性合意を導く参照にはなるが、SOTA 主張の根拠とするには発表年(2021 まで)に限定される。LLM ベース AIOps(2023 以降)はスコープ外。
## 強み / 弱点・課題
- **強み**: 2 軸 taxonomy + 9 種データソース + 14 サブカテゴリの三重整理で「読み筋」と「逆引き」の双方を支える。各サブカテゴリで数値付き比較を提示することで、適用判断に直接使える材料になっている。
- **弱点・限界**:
- 寄与選別が著者基準で、検索戦略は別論文(arXiv:2012.09108)に依存。
- 2021 年時点のスナップショットで、LLM(GPT-4 / RAG / tool-augmented agent)以降の AIOps 動向は対象外。
- recovery サブカテゴリは「AI 寄与なし」とほぼ宣言され、実質 1 件([124])のみを扱う(taxonomy の網羅性のため残されている)。
- 用語の混在(error / failure / fault)が分野横断で続いており、本論はそれを整理するが普及は別問題。