@2015__CSUR__Performance Anomaly Detection and Bottleneck Identification

> [!abstract] 概要(原文 abstract の和訳) > 現代のコンピューティング・インフラストラクチャ内のシステムは、性能を低下させる可能性があり、その結果ユーザーエクスペリエンスと収益に影響を及ぼす異常な挙動を示すことが多い。このような性能の問題を早期に検知し、背後にあるボトルネックを特定することは、システム管理者の重要な責務である。本調査では、性能異常検知とボトルネック特定(PADBI)に関するさまざまな研究成果を体系的にレビューし、それら研究を統一的な分類体系に位置づける。各アプローチの強みと弱点を評価し、現在の研究状況とオープンな課題を論じる。最後に、クラウドコンピューティング環境という文脈でのシステム性能管理における PADBI の問題に特有の、難易度の高い研究課題をまとめる。 ## 論文情報 - **タイトル**: Performance Anomaly Detection and Bottleneck Identification - **著者**: [[Olumuyiwa Ibidunmoye]]、[[Francisco Hernández-Rodriguez]]、[[Erik Elmroth]](いずれも [[Umeå University]]) - **媒体**: ACM Computing Surveys (CSUR)、Vol. 48、No. 1、Article 4 - **発表**: 2015年7月(投稿 2013年11月、採択 2015年1月) - **DOI**: 10.1145/2791120 - **PDF**: [[.raw/papers/Ibidunmoye-et-al.-2015---Performance-anomaly-detection-and-bottleneck-identification.pdf]] - **ページ数**: 35 ページ ## 概要クラウド環境を中心とした分散システムにおける性能異常検知(PAD)とボトルネック特定(PBI)を統合した領域 PADBI の体系的サーベイ論文。50 本以上の先行研究を分析し、異常とボトルネックの分類体系・検知戦略・統計/機械学習手法を整理する。当時の研究の多くが PAD か PBI を個別に扱い、両者を統合した PADBI 研究が少ないという課題を示した。 **Figure 1: 図** ![[_attachments/Ibidunmoye-et-al.-2015---Performance-anomaly-detection-and-bottleneck-identification/fig1-figure.png]] (Figure 1. Illustration of anomalies を示す。) **Figure 3: 図** ![[_attachments/Ibidunmoye-et-al.-2015---Performance-anomaly-detection-and-bottleneck-identification/fig3-figure.png]] (Figure 3. CPU saturation bottleneck を示す。) ## ビジネスインパクト本論文は性能問題のコスト的重大性を定量的に示している。 - ページ応答時間と売上・訪問者数の間には相関があり、レイテンシが高いとページ離脱率が上昇する - 日商 $100,000 の小規模 EC サイトでは、1 秒のページ遅延が年間約 **7% の売上損失**につながる - Amazon は応答時間が 100ms 増えるごとに **1% の売上減少**を報告している - Google は応答時間 500ms の遅延で **20% のトラフィック減少**を報告している - Yahoo Mail・AWS・Google・LinkedIn・Facebook などの大手サービスが、ボトルネックに起因するダウンタイムを経験している ## 問題設定 **入力**: システムの性能メトリクス(CPU・メモリ・I/O・ネットワーク帯域幅・レイテンシ等) **出力**: 1. **PAD (Performance Anomaly Detection)**: 性能が正常値から逸脱していることの検知 2. **PBI (Performance Bottleneck Identification)**: 性能を制約しているリソースの特定 3. **PADBI**: PAD と PBI を統合したアプローチ **PADBI システムの出力物**: - 異常な性能指標の集合 - インシデントのタイムスタンプ - 異常なメトリクスの集合 - ラベル(正常/異常のクラス) - アノマリースコア(異常の程度) **評価指標**: Precision(適合率)・Recall(再現率・TP率)・Accuracy(正解率)・Specificity(特異度・TN率) **前提条件・背景**: SLA(Service Level Agreement)が主要 KPI として用いられる。QoS(Quality of Service)違反を引き起こす異常を、原因帰属まで含めて処理する必要がある。 **Figure 4: 評価結果** ![[_attachments/Ibidunmoye-et-al.-2015---Performance-anomaly-detection-and-bottleneck-identification/fig4-results.png]] (Figure 4. 評価結果を示す。) **Figure 2: 性能評価** ![[_attachments/Ibidunmoye-et-al.-2015---Performance-anomaly-detection-and-bottleneck-identification/fig2-performance.png]] (Figure 2. 性能評価の結果を示す。) ## 異常とボトルネックの分類体系 ### 異常タイプ(4 種) 本論文は Chandola et al. [2009] の 3 分類に **pattern anomaly** を追加した独自の 4 分類を提案する。 | タイプ | 定義 | 具体例 | |--------|------|--------| | **Point anomaly** | 他のデータと比較して異常な単一データ点 | μ ± 3σ 超のメモリ使用率スパイク | | **Collective anomaly** | 個々の点は正常でも、集合として異常 | 断続的な低スループット値の連続 | | **Contextual anomaly** | 文脈(負荷レベル・ペイロード種別・システム状態・インフラ種別)から外れた値 | IO 境界ワークロード時に CPU が異常 | | **Pattern anomaly** | 性能メトリクスの曲線形状が典型パターンから逸脱 | レイテンシの漸近的増大パターンが消失 | Pattern anomaly は Collective anomaly の一般化版と見なせる。たとえばアプリケーションのレイテンシはリソース飽和時に漸近増大(asymptotic growth)する典型曲線を描くが、この形状そのものが検知対象となる。 ### ボトルネックタイプ **原因種別**: | 種別 | 説明 | 具体例 | |------|------|--------| | **Resource saturation** | リソースが物理上限またはしきい値を超えて完全利用 | CPU が 70% 超え → キュー輻輳・レイテンシ増大。メモリリーク → 常時ページング・スワッピング。ディスク飽和 → IO リクエストのキューアップ。ネットワーク飽和 → 輻輳・パケットドロップ | | **Resource contention** | 複数のエンティティが同一リソースを競合 | CPU ホッギングプログラムによる VM 間干渉。メモリ帯域の共有による性能劣化。IO ワークロードでの Disk contention。ピーク時のネットワーク帯域競合 | **発生パターン**: | パターン | 説明 | |----------|------| | **Single bottleneck** | 単一リソースが制約。負荷に対してほぼ線形に使用率が増加する特徴的な挙動を示す | | **Multiple bottlenecks** | 2 つ以上のリソースが同時/並行/振動的に飽和。Malkowski [2009] は simultaneous/oscillatory/concurrent の 3 サブタイプに分類 | | **Shifting bottleneck** | Multiple bottleneck の特殊ケース。負荷変動や Webリクエストのカスケード構造により、ボトルネックが 2 つ以上のコンポーネント間を「ドミノ式」に移動 | ### 異常の発生源(4 種) 本論文は Fish-bone ダイアグラムで因果関係を整理している。 1. **Application issues**: コードのバグ・設定ミス・ソフトウェアアップデートによる予期しないリソースボトルネック 2. **Workload**: フラッシュクラウドなどの突発的負荷増加・バースト性。スレッドリソースの過剰サブスクリプション、メトリクスの短期ピーク 3. **Architectures and Platforms**: JVM ガベージコレクション・Intel SpeedStep などプラットフォーム起因の一時的イベント。マルチコア NUMA アーキテクチャでのメモリ配置問題 4. **System Faults**: ハードウェア障害・ソフトウェアバグ・オペレータエラー・セキュリティ違反に起因する間欠的・一時的・永続的障害 ## データ収集と観測可能性 ### システム観測可能性(White / Gray / Black Box) | 観測性 | 定義 | 適用環境 | |--------|------|---------| | **White-box** | アプリケーションソースコードとインフラへの完全アクセス | 専用クラスタ環境。プロファイリングと深いソーストレースが可能 | | **Gray-box** | 部分的なソースコードインストルメンテーション | 共有ホスティング環境の一部 | | **Black-box** | ソースコードへのアクセスなし。VM の外側からの観察のみ | クラウド環境。クラウドプロバイダは VM を Black-box として扱う | - White/Gray-box はインストルメンテーションによるオーバーヘッドが生じる(侵襲的) - Black-box はオーバーヘッドが少ない代わりに可視性が低下する(非侵襲的) ### プロファイリングとトレーシング - **プロファイリング**: リソース消費の挙動と依存関係の研究。性能の全体的な評価と予測のための分析モデル構築。代表ツール: `ps` `sysstat` `htop` `top` `collectd` `Nagios` `Ganglia` `apachetop` `dstat` `iftop` - **トレーシング**: ソースコードインストルメンテーションによる細粒度のネットワーク/ソースレベルイベントの追跡。実行フロー・処理内容・呼び出しスレッド・コードブロック所要時間を明らかにする。代表ツール: `KProbe` `AspectJ` `JimysProbe` `Dtrace` `Magpie` `Strace` ### サンプリング間隔 - 短い間隔: 高解像度だが計算・ストレージオーバーヘッドが大きい - 長い間隔: 軽量だが一時的な性能イベントを見逃す可能性がある - **適応的サンプリング**: ベースライン間隔から開始してアプリケーション挙動に応じて動的に調整する手法(Magalhaes and Moura Silva [2011]) ### 問題の複雑性 1. **動的依存性**: 大規模システムでは複数の相互依存コンポーネント間で、検知困難な交互/カスケードボトルネックが発生する 2. **動的異常特性**: 正常と異常の定義はアプリケーション・実行環境・負荷コンテキストによって大きく異なる。実行時に正常挙動を異常挙動から正確に区別することは困難 3. **データの多様性**: 多様なデータ収集ツールが異なるフォーマット・セマンティクスで出力を生成する。ノイズ(計測誤差・送受信エラー)が異常に似た値を取ることがあり、誤検知の原因となる。現代のシステムは膨大な健全性データを生成し「干し草の中の針」問題が発生する ## 検知戦略と手法 ### 4 つの検知戦略すべての戦略は閾値処理(Thresholding)を組み合わせる。閾値の例: 統計的検知では p値・R²、クラスタリングではセントロイドからの距離、情報理論ではエントロピー上限。検知はオンライン(実行時)またはオフライン(事後分析)のどちらでも行われる。 | 戦略 | 概要 | 特徴 | 代表システム | |------|------|------|------------| | **シグネチャベース** | アプリケーションの実行時特性(シグネチャ/フィンガープリント/プロファイル)をリアルタイムで生成し、新規観測をフィルタリング | 事前のシグネチャ履歴不要。ドメイン知識とシステム状態のグローバルスナップショットが必要。誤検知低。既知の異常に適する | Bodik [2010], Mi [2008b], Cherkasova [2008, 2009] | | **観測ベース** | 直接実験やステージング(制御環境)でアプリを観察し、詳細分析。リアルタイムとポストモーテムの両方を対象。フォルト/異常/ボトルネックの意図的注入も含む | 実験的・認知的知識に依存。既知・未知の異常どちらにも高精度。適切な閾値のリアルタイムエンコードが難しい | Magalhaes [2011], Pu [2007], Tan [2010] | | **知識駆動** | 過去に観測された異常の定義・根本原因・対策を動的ストア(知識ベース)に保持。推論エンジンがルールから性能問題を特定。新しい問題発見で知識ベースを更新 | 既知の性能問題の真陽性率が高い。特定のエンタープライズシステムに有効 | Chung [2008], Koehler [2011], Kandula [2009] | | **フロー・依存関係解析** | 分散アプリのコンポーネント間通信フロー(SNMPパケット・TCPトラフィック)のリアルタイム収集・分析。Black-box 環境では入出トラフィック観察、White/Gray-box 環境ではコードトレーシング | Black-box 環境での細粒度検知・高真陽性率。大規模システムでのデータ収集オーバーヘッドが課題 | Ben-Yehuda [2009], Sambasivan [2011], Nguyen [2013] | ### 統計的手法 #### ガウス/GMM ベース正規分布または混合ガウスモデルによる密度推定。Tukey limits は Q1 - k×IQR から Q3 + k×IQR の外をデフォルト k=1.5 で異常とフラグ。GMM は EM アルゴリズムで推定するパラメトリックモデル。 #### 回帰分析 - **TM (Transaction Mix) モデル**: クライアントトランザクションの混合とリソース消費の関係を回帰モデルでモデル化。容量計画と性能異常検知に利用 - **NLS (Nonnegative Least Squares)**: 異なるクライアントトランザクションのリソース要求推定に適用(Zhang [2007a]) - **LAR (Least Angle Regression)**: 高次元での変数選択と診断に活用。Lasso のバリアント(Kang [2012]) - 残差(residuals)の大きさでアノマリースコアを計算。信頼区間外を異常とみなす #### 相関分析 - **Pearson 相関**: 性能メトリクス間の線形関係を係数 R ∈ [-1, +1] で定量化 - **Canonical Correlation**: ベクトル X と Y 間の線形結合(正準変量 u, v)から変動を最大捕捉。Kernel CCA はその非線形拡張 - 観測ウィンドウ [t1, tn] での R 値が期待範囲 [Rmin, Rmax] 外になれば異常として検出 #### SPC (Statistical Process Control) 品質管理の管理図(CUSUM, Shewart/ImR/XmR チャート)をシステム監視に応用。インターバルベースのサンプリングデータには不適とされるため、以下の拡張が開発された。 - **MASF (Multivariate Adaptive Statistical Filtering, Buzen & Shum 1995)**: ガウス分布の変化検知 SPC フレームワーク。正常運用データから μ, σ, σ² を取得し、UCL=μ+3σ / LCL=μ-3σ を設定。外れを異常として検出 #### SIA (Statistical Intervention Analysis) 時系列データのシフトの形態と大きさを測定(Box & Tiao [1975])。インターネットのフラッシュクラウド・スラッシュドット効果・ノード障害などの「介入」の影響を研究。Malkowski [2007] がボトルネック特定に応用。 #### その他の統計手法 | 手法 | 活用 | 代表文献 | |------|------|---------| | ANOVA | 根本原因特定・変化検知 | Magalhães [2011], Bereznay [2006] | | Index of Dispersion | Webアプリの負荷バースト性検知 | Mi [2008a], Casale [2012] | | Markov Model | 異常性能メトリクスの予測・障害箇所特定 | Nguyen [2013], Tan [2012] | | Kernel Density Estimation | カーネル回帰によるリソース飽和推定 | Malkowski [2009] | | Student's t-test | 異常メトリクスの局所化 | Wang [2014] | ### 機械学習手法統計的手法と異なり、データの分布を仮定しない。 #### 前処理 - **次元削減**: PCA(k 個の相関メトリクスを m ≤ k 個の非依存メトリクスに変換)、因子分析、独立成分分析、非線形 PCA - **類似度識別**: 相互情報量(Mutual Information)アルゴリズムで高類似フィーチャーを特定し、クラスタリングの効率を改善 #### 教師あり学習ラベル付きデータセットが必要。訓練フェーズでクラス間の関係モデルを構築し、テストフェーズで新データを分類。クラウドなど動的環境では再訓練コストが問題となる。既知の異常検知に適する。 | 手法 | 代表システム | |------|------------| | Decision Tree (C4.5) | Jung [2006], Fu [2011] | | TAN (Tree Augmented Naive Bayes) | Cohen [2004], Parekh [2006] | | Bayesian 分類器 | Gu & Wang [2009], Tan [2012] | | SVM (Support Vector Machine) | Pannu [2012], Fu [2012] | | Rule-based (Association Rules) | Cohen [2005] | #### 教師なし学習訓練データもラベルも不要。データの統計的特性からクラスタリング。正常データが異常データより多数であることを前提とする。クラウド環境での未知異常検知に特に適する。 **近傍法(Neighbour-based)**: - 正常データは密集した近傍に、異常データは近傍から遠い位置に存在すると仮定 - **k-NN**: 各インスタンスと最近傍 k 個との距離を事前定義しきい値と比較。時間計算量 O(N²) - **LOF (Local Outlier Factor)**: 各インスタンスの密度を推定し、低密度近傍にあるインスタンスを異常とフラグ。テストフェーズは計算コストが高い(Wang [2012], Huang [2013]) **クラスタリングベース**: - 類似インスタンスを隠れた関係性によりグループ化。クラスタの密度または中心からの距離で異常判定 - k-means、EM、SOM が代表的アルゴリズム。テストフェーズは少数のクラスタとの比較のみで高速 | 手法 | システム | 概要 | |------|---------|------| | SOM (Self-Organizing Map) | Dean [2012] | IaaS クラウドの創発的システム挙動を学習し、未知の異常を予測 | | LOF | Wang [2012, 2014] | ワークロードパターンをオンラインクラスタリングで認識し、そのパターン内で LOF を適用 | | LOF (adaptive) | Huang [2013] | コンテキスト異常と未知の異常を検知するための適応的 LOF 拡張 | | Non-parametric Clustering | Yu & Lan [2013] | Hadoop クラスタへの階層的グルーピング+多数決投票による非中央集権的異常検知 | **情報理論的手法**: 異常はデータセットの情報内容に不規則性をもたらすという仮定に基づく。パラメータ化不要で汎用的。 - **エントロピー** H(X) = -Σ P(xi) log P(xi): 高エントロピー値はランダム性が高く、より異常の可能性 - **相対エントロピー(KL ダイバージェンス)** H(Q||P): 2 つの観測ウィンドウ間のメトリクス変化検知に利用。0 に近いほど分布が類似 - 分布仮定が不要なため、未知の異常の教師なしオンライン検知に適する(Wang [2009, 2010]) #### 半教師あり学習小量のラベル付きデータ(通常は正常クラスのみ)を利用して学習。教師あり・なし両方の利点を組み合わせる。 - **Bootstrapping**: 少量の訓練例でスタート → 正例テストインスタンスを発見するたびに訓練データに追加して再訓練 → 大規模インフラでの正常/異常定義の動的変化に適合 - 代表手法: PCA + ICA(Lan [2010])、PCA + Bayesian + EM クラスタリング(Smith [2010])、自己進化型 One-class + Two-class SVM(Fu [2012]) ## 調査結果(文献分析) ### 研究目標の分布 | 目標 | 比率 | |------|------| | PAD のみ | 53% | | PBI のみ | 29% | | PADBI 統合 | 18% | 統合アプローチはまだ少数派であり、PAD と PBI を連携させる研究が求められる。 ### 手法トレンド | 時代 | 主なフォーカス | 代表的な動き | |------|--------------|------------| | 2000年代以前 | OS・ネットワーク・クライアントサーバのハードウェア/ソフトウェアボトルネック | Mahapatra [1999], Breese [1995] | | 2000年代前半 | Web・分散アプリケーション(専用環境) | Chen [2002], Aguilera [2003], Barham [2003] | | 2000年代中盤〜後半 | エンタープライズアプリ・グリッド・大規模インフラ。TM モデル・キューイング理論・シグネチャモデル・統計技術の発展 | Kelly [2005b], Mi [2008b], Cherkasova [2008], Malkowski [2007, 2009] | | 2010年代 | クラウド(信頼性・予測可能性・根本原因特定・SLA 保証)。高度な機械学習の本格活用。プロアクティブ検知への転換 | Kang [2012], Dean [2012, 2014], Huang [2013] | **主要な傾向**: - 事後対応(reactive)から予防的(proactive)検知へ。Guan [2011]・Tan [2012] などが事前アラートで先行検知 - 単一メトリクスから複合メトリクスへ - 単一リソースから多リソース相関へ - 中央集権型から分散型検知アーキテクチャへ(Yu & Lan [2013]) ## クラウド固有の課題論文の Section 5 でクラウド PADBI の 5 つの固有要件を詳述している。 1. **スケール**: 中〜大規模クラウドは数千のアプリケーションを限られたリソースで実行。Wang [2010] はメトリクス空間が Exa スケール(10¹⁸ メトリクス)に達すると推定。PADBI システムは軽量でリアルタイムオンライン動作が求められる 2. **マルチテナンシー**: 複数テナント VM が同一物理サーバで仮想リソース(CPU・メモリ)と非仮想リソース(ネットワーク・キャッシュ)を競合。一部のアプリで **40% の性能劣化**を引き起こすことが報告されている(Sharma [2013])。PADBI は実行コンテキストを常に把握する必要がある 3. **複雑なアプリケーションアーキテクチャ**: 長期実行 MapReduce ジョブ、HPC 科学ワークフロー、インタラクティブ Web ソーシャルメディア、EC、メディアストリーミングなど多様なアプリが共存。IaaS クラウドのサービスは Black-box であり、クラウドプロバイダ側から性能診断・解決の範囲が制限される 4. **動的リソース管理**: VM の動的再設定・統合・ライブマイグレーションが実行コンテキストを常時変化させる。VM 再設定の不具合で **30%**、自発的なライブマイグレーションで **10%** の性能影響が観察されている(Sharma [2013])。この環境では「正常」の定義が極めて困難 5. **自律管理(Autonomic Management)**: 現代のデータセンターは自律的リソースマネージャが SLA と最適リソース利用を実現。検知の遅延や手動対応はクラウドモデルに合わない。プロアクティブで動的な PADBI が必須(Dean [2012], Sharma [2013]) ## オープンな研究課題(Section 6) 本論文が識別した 6 つの将来課題。 1. **多層ボトルネック検知(Multilevel bottleneck detection)**: 現状の研究はアプリレベルかシステムレベルに集中している。アプリサービスコンポーネント → 仮想化レイヤー → システムリソースボトルネックという階層を串刺しで検知する手法が必要。また異常検知は「ワークロード・リソース需要・性能」の 3 視点から見る必要がある 2. **タクソノミーの整備**: さまざまな運用条件(ワークロード・プラットフォーム)と挙動(マニフェスト)のもとでの性能問題の分類体系。挙動がアプリ固有であるため困難だが、よくある異常・ボトルネックについては小さな前進が可能 3. **オープンな性能データセット**: 機密性・プロプライエタリ性から公開データセットが不足。Google Cluster Trace [2011](29日間・12,000台だがスループット/レイテンシなし)・Yahoo Webscope(30分間のみ)が存在するが限定的。研究の進展を阻害している 4. **異常耐性リソース割当(Anomaly-resistant resource allocation)**: プロアクティブな異常検知を自律リソースマネージャと密接に統合する必要がある。管理者へのアラート通知は準自動化であり、現代のシステム管理モデルに合わない 5. **コンテキスト対応検知(Context-aware detection)**: クラウドの頻繁な性能変動はワークロード変動・動的リソース再設定による実行コンテキストの変化に起因する。時間の経過とともに進化するコンテキストを識別・特性化し、非定常クラウド挙動に適応できるソリューションが必要 6. **分散検知(Distributed detection)**: 現状の研究の大部分は中央集権型検知に集中。エンタープライズシステムは複数の物理ドメインにまたがっており、データ収集のオーバーヘッドやプライバシー規制が中央集権を困難にする。分散協調型アプローチが必要(理論的試みとして Lazarevic [2009]) ## 新規性 2015 年時点での PADBI 分野の最初期の体系的サーベイの一つ。以下を提供: - PAD と PBI を統合した統一分類体系 - 検知戦略の 4 分類(シグネチャ/観測/知識/フロー)と手法の系統的整理 - クラウド特有の 5 要件の明示化(以前の研究はオンプレミス前提が多かった) - 6 つのオープンリサーチ課題の識別 ## 強み / 弱点・課題 **強み**: - 体系的な分類体系により先行研究の位置づけが明確になる - クラウド環境の課題を正面から論じた早期の研究 - シグナル処理手法(Extended Window Averaging, Adaptive Filtering, Fourier Transforms)にも言及 - 付録の Table IX/X で 30 以上の主要文献を Goal/System/Observability/Strategy/Method/Techniques の 6 軸で整理 **弱点・課題**: - 2015 年時点のサーベイのため、深層学習・LLM を用いた手法はカバーしない - 実際のプロダクション環境での実証が少ない - 多くの引用論文が研究用ベンチマークに限定されており、実運用環境との乖離がある - PBI と PAD の統合(PADBI)の実装例が 18% と少なく、統合手法の設計指針が不十分 - 統計的手法はデータ分布の仮定が崩れると精度が低下。教師なし手法は異常インスタンスが多い場合に誤検知が多い ## 関連ページ - **概念**: [[wiki/concepts/異常検知|異常検知]]、[[wiki/concepts/根本原因分析|根本原因分析]]、[[wiki/concepts/AIOps|AIOps]] - **著者**: [[Olumuyiwa Ibidunmoye]]、[[Francisco Hernández-Rodriguez]]、[[Erik Elmroth]] - **所属**: [[Umeå University]]