@2010__ACM CSUR__A Survey of Online Failure Prediction Methods

## 概要ヒューマン記憶の蓄積を頼りにした古典的 reliability prediction とは別の系譜として、**runtime monitoring に基づく短期障害予測**(オンライン障害予測)を独立の研究領域として整理した 2010 年時点のサーベイ。約 50 のアプローチを 4 系統 26 サブカテゴリの taxonomy にまとめ、評価指標・時間軸定義・データ源と手法の対応表を提供する。 > [!abstract] 概要(原文 abstract の日本語訳) > コンピュータシステムの複雑性と動的性が増し続けるなかで、プロアクティブな障害管理は可用性向上の有効なアプローチである。オンライン障害予測はこうした技法の鍵を握る。古典的な信頼性手法とは対照的に、オンライン障害予測は runtime monitoring と、システムの現在の状態(および多くの場合は過去の経験)を用いるさまざまなモデル・手法に基づく。本サーベイはこれらの手法を記述する。当該領域の広いスペクトラムを捉えるため taxonomy を構築し、その異なるアプローチを説明するとともに主要概念を詳細に記述する。 ## 論文情報 - タイトル: A Survey of Online Failure Prediction Methods - 著者: [[Felix Salfner]], [[Maren Lenk]], [[Miroslaw Malek]] - 所属: [[Humboldt University of Berlin]] - 媒体: ACM Computing Surveys, Vol. 42, No. 3, Article 10 (2010 年 3 月発行) - DOI: 10.1145/1670679.1670680 - 受理経緯: Received July 2007, revised June 2008, accepted October 2008 - 分量: 42 ページ(本文)+ 電子付録(Appendix A〜K) - 関連支援: Intel Corporation, German Research Foundation(本文謝辞より) ## 問題設定入力: 動作中のシステムから runtime monitoring によって得られる measurements(symptom 系の連続的システム変数・detected error の event ストリーム・過去の failure 時刻列)。出力: ある時刻 t における「lead time `t_l` 後から長さ `t_p` の prediction period 内に failure が発生するか」の判定または連続スコア(§2.2)。前提: 予測は短期的でなければならず、`t_l` は人や系が対策を打つために必要な minimal warning time `t_w` より長くなければならない(§2.2)。データ窓 `t_d` は予測時に参照する過去履歴の長さ。スコープから除外する: (a) 設計時に長期信頼性を評価する reliability prediction(Lyu 1996 などの系譜)、(b) 障害発生後に原因を遡る root cause analysis(§1.1, Figure 1)。 **Figure 1: 障害要因** ![[_attachments/Salfner-et-al.-2010---A-survey-of-online-failure-prediction-methods/fig1-failure-factors.png]] (Figure 1. 障害要因の内訳を示す。) **Figure 3: 障害要因** ![[_attachments/Salfner-et-al.-2010---A-survey-of-online-failure-prediction-methods/fig3-failure-factors.png]] (Figure 3. 障害要因の内訳を示す。) **Figure 4: 障害要因** ![[_attachments/Salfner-et-al.-2010---A-survey-of-online-failure-prediction-methods/fig4-failure-factors.png]] (Figure 4. 障害要因の内訳を示す。) ## 提案手法本論文の核は新手法ではなく、**約 50 のオンライン障害予測手法を共通の taxonomy に位置づける枠組み**である。 ### Taxonomy の根拠障害は fault → undetected error → detected error → failure の連鎖で進展し、加えて symptom(検出されない error の副作用)を生じうる(§2.1, Figure 3)。これら各段階を「可視化」する技法は対応関係を持つ(§4): | 段階 | 可視化技法 | 入力データ系統 | 本論文での扱い | |---|---|---|---| | Fault | Testing | (runtime ではない) | 除外 | | Undetected error | Auditing | undetected error auditing(系統 4) | 該当文献未発見 | | Symptom | Monitoring | symptom monitoring(系統 2) | 最も豊富 | | Detected error | Reporting | detected error reporting(系統 3) | 多数のサブカテゴリ | | Failure | Tracking | failure tracking(系統 1) | 比較的少数 | ### Taxonomy の階層(§4 全体・Figure 8) ``` 1. Failure tracking 1.1 Probability distribution estimation 1.1.1 Bayesian predictors 1.1.2 Nonparametric methods 1.2 Cooccurrence 2. Symptom monitoring 2.1 Function approximation 2.1.1 Stochastic models 2.1.2 Regression 2.1.3 Machine learning 2.2 Classifiers 2.2.1 Bayesian classifiers 2.2.2 Fuzzy classifier 2.2.3 Other approaches 2.3 System models 2.3.1 Instance models 2.3.2 Clustered instance models 2.3.3 Stochastic models 2.3.4 Graph models 2.3.5 Control theory models 2.4 Time series analysis 2.4.1 Regression 2.4.2 Feature analysis 2.4.3 Time series prediction 3. Detected error reporting 3.1 Rule-based systems 3.2 Cooccurrence 3.3 Pattern recognition 3.4 Statistical tests 3.5 Classifiers 4. Undetected error auditing (該当文献なし) ``` ### 評価指標の整理(§3) - 二値判定は **contingency table**(TP/FP/FN/TN)を基礎とする(Table I・Table II)。 - **precision/recall・F-measure**(precision と recall の調和平均)を主軸とし、稀事象である障害には accuracy を用いないことを推奨(§3.1)。 - **precision/recall 曲線**と **ROC 曲線・AUC** を閾値スイープのもとで描き、`(t_d, t_l, t_p)` の組み合わせを固定したうえで比較する(§3.2・§3.3)。 - 評価データはラベル付きとし、training/validation/test に分割。out-of-sample 評価が標準。クロスバリデーション・ジャックナイフ・ブートストラップで信頼区間を補う(§3.4)。 ### 時間軸の定式化(§2.2, Figure 4) | 記号 | 意味 | |---|---| | `t` | 現在時刻 | | `t_d` | data window size: 予測に用いる過去履歴の長さ | | `t_l` | lead time: 現在から「予測対象の failure 発生窓の始まり」までの時間 | | `t_p` | prediction period: 予測が有効と見なす将来時間幅 | | `t_w` | minimal warning time: 対策を打つために必要な最小余裕。`t_l ≧ t_w` が成立しなければ予測の効用は失われる | 注意: 同一手法でも `(t_d, t_l, t_p)` の組合せで contingency table が変わる。特に `t_p → ∞` なら「常に failure」と答える戦略でも recall = 1 を達成してしまうため、必ず明示すべき(§3.1 末尾)。 ### 代表手法(Table III からの抜粋) 実装手法ごとの application 領域(本論文の網羅は約 50 件)。LLM 期のサーベイ([[@2021__TIST__A Survey of AIOps Methods for Failure Management]] §4.2)が参照する古典群が並ぶ: - **2.1.1** [[Kishor Trivedi]] らの semi-Markov reward model(UNIX のメモリ消費予測)・Li+ 2002 の ARX(Apache resource utilization) - **2.1.3** Hoffmann 2006 の universal basis functions(電話交換機)・Fu and Xu 2007 の neural network(Wayne State Univ. グリッド) - **2.2.1** Hamerly & Elkan 2001 の naive Bayes(HDD SMART) - **2.2.2** Murray+ 2003 の SVM(HDD)・Bodik+ 2005 の naive Bayes(Web ページのヒット頻度) - **2.3.1** Hughes+ 2002 の rank sum test(HDD SMART)・Chen+ 2002 の Pinpoint(J2EE) - **2.3.3** Chen+ 2004 の Probabilistic Context-Free Grammar(eBay 含む) - **2.3.5** Singer+ 1997 の MSET + SPRT(後年 [[ソフトウェアエイジング]] 検知に応用) - **2.4.1** Garg+ 1998 の trend smoothing(UNIX resource)・Castelli+ 2001 の IBM xSeries Software Rejuvenation Agent - **2.4.2** Shereshevsky+ 2003 の Hölder 指数 + Shewhart 変化点検知 - **3.1** Hätönen+ 1996 の episode rule(telecom alarm)・Weiss 1999 timeweaver(遺伝アルゴリズム)・Vilalta & Ma 2002 eventset - **3.2** Lin & Siewiorek 1990 の Dispersion Frame Technique(Andrew File System) - **3.3** Salfner+ 2006 の SEP(semi-Markov)・Salfner & Malek 2007 の **HSMM**(hidden semi-Markov model、本論文著者らの主軸手法) - **3.5** Domeniconi+ 2002 の SVD-SVM(本番ネットワーク 750 ホスト) **Figure 5: アルゴリズム** ![[_attachments/Salfner-et-al.-2010---A-survey-of-online-failure-prediction-methods/fig5-algorithm.png]] (Figure 5. Sample precision/recall curves visualizing the tradeoff between precision and recall. Curve A shows a predictor that is に関するアルゴリズムの流れを示す。) ## 新規性先行する failure-related surveys(Lyu 1996, Musa+ 1987, Blischke & Murthy 2000, Denson 1998)は**設計時の長期 reliability 予測**を扱い、runtime に基づく short-term prediction を横断的に位置づけたものはなかった。本論文は以下を新規貢献として明示する: 1. **fault/error/symptom/failure の 5 段階モデル**(Avižienis+ 2004 への symptom と undetected/detected 区別の追加)に基づき、入力データ系統で taxonomy を構築した(§2.1)。 2. **(t_d, t_l, t_p, t_w) の 4 パラメータで時間軸を固定**したうえで評価指標を比較する枠組みを与え、accuracy が稀事象に不適切である理由を明示した(§3)。 3. **約 50 手法を 26 サブカテゴリへ写像**し、application 領域・demonstrated 用途・潜在用途を Table III に集約した(§6)。 4. オンライン障害予測と **root cause analysis を明示的に分離**(§1.1, Figure 1)。両者を混同してきた当時の研究状況に対する整理。 ## 実験設定サーベイ論文のため独自実験は持たない。各手法の代表的な実験データ(IBM BlueGene/L、Apache、SunOS、Wayne State Univ. グリッド、Quantum HDD の SMART、Windows NT/2000、Tellme 音声ネットワーク、eBay、Comverse Voice Mail、Andrew File System ほか)を Table III に集約。オフラインで言及されているデータ基盤として、Carnegie Mellon University が 2006 年に開始した **Computer Failure Data Repository**(http://cfdr.usenix.org)を「2008 年時点で利用可能な唯一の公開大規模故障データ基盤」として紹介する(§1.2)。 ## 実験結果サーベイ論文のため定量結果は持たない。代わりに次の観察を述べる(§6): - 多数の手法が **software failures** を主対象としつつ、Hughes+ 2002、Hamerly & Elkan 2001、Murray+ 2003、Weiss 1999 など **hardware failures**(主に HDD)を扱う系譜も確立している。 - prediction quality を比較するには **共通の評価指標 + 公開リファレンスデータ** の 2 条件が必要だが、2010 年時点ではいずれも未成熟。 **Figure 2: 評価結果** ![[_attachments/Salfner-et-al.-2010---A-survey-of-online-failure-prediction-methods/fig2-results.png]] (Figure 2. 評価結果を示す。) ## 考察著者らの立場(§6 末尾): - システム複雑性・脅威・第三者ソフトウェア・接続性・動的性の増加により、ディペンダビリティは恒常的課題であり続ける。 - そうした文脈で **proactive fault management** + runtime monitoring + online failure prediction は数少ない有効な選択肢の一つである。 - **次の研究的飛躍は、予測精度の改善ではなく「予測に基づく効果的な対策の自動トリガー」** にある。短時間で復旧できるなら高い偽陽性率を許容できる(Candea+ 2004 の microreboot 引用)。 - 当時の限界として、prediction quality を異なる研究間で比較可能にする **共通の公開データセット** の欠如、および評価指標の慣例の未統一を挙げる。 ## 強み - **taxonomy の網羅性**: 入力データ系統という機械的判別軸で 4 主要枝に分割し、各枝の下位を統一スキームで分解した。後続サーベイ([[@2021__TIST__A Survey of AIOps Methods for Failure Management]])の出発点。 - **用語と時間軸の標準化**: fault/error/symptom/failure の 5 段階モデルと (t_d, t_l, t_p, t_w) の 4 パラメータは現在も AIOps の予測タスク定義の語彙として通用する。 - **手法と application の対応表**(Table III): 47 手法に対して「動作確認済み領域」「適用可能領域」「注意点」を 1 行ずつ記述。 ## 弱点・課題 - **下位カテゴリの境界がぼやけることがある**: たとえば Fu & Xu 2007 は同時に **2.1.3**(neural network による function approximation)と **1.2**(cooccurrence)に該当すると著者ら自身が記す。境界をどこに引くかは入力データ強調か手法強調かで揺れる。 - **section 4.4 (undetected error auditing) が空**: 著者らは該当文献を発見できなかったと述べ、taxonomy 構造の対称性は確保されたものの 1 系統が事実上空欄。 - **2010 年の手法カタログ**: 本論文以降に確立した deep learning ベースの sequence model(LSTM・Transformer)・LLM ベース予測には触れない。後継として [[@2021__TIST__A Survey of AIOps Methods for Failure Management]] が pre-LLM 期の蓄積を 100 件で更新し、LLM 期は [[@2025__CSUR__A Survey of AIOps in the Era of Large Language Models]] が補う。 - **公開リファレンスデータの欠如**: 著者ら自身が結論で指摘するとおり、当時の比較研究は再現性が低い。 - **proactive fault management の残り 3 段階**(diagnosis・action scheduling・action execution)を意図的にスコープ外としており、本論文単体ではエンドツーエンドの設計指針には不足する(§1.2 で明記)。