## Memo
- ハイパーバイザーホスト4台のデータは少ない気がする。
## Memo with LLM
https://claude.ai/chat/0b49ad18-a4aa-4ac5-8c2b-af2a6596c2c3
```
# 論文情報
- **論文のタイトル**: Virtual Machine Proactive Fault Tolerance Using Log-Based Anomaly Detection
- **著者と所属**: Pratheek Senevirathne, Samindu Cooray, Jerome Dinal Herath, Dinuni Fernando (School of Computing, University of Colombo, Sri Lanka)
- **ジャーナル名**: IEEE Access
- **発表年**: 2024
# 論文概要
本論文はクラウドコンピューティング環境でのバーチャルマシン(VM)の高可用性を実現するため、「VMFT-LAD」という半教師あり型のログベース異常検知モデルを提案しています。このモデルはVMの障害を事前に検知し、プロアクティブなVM移行を可能にすることで、サービス中断を防ぎます。Matrix Profileと大規模言語モデル(LLM)を組み合わせることで、低い誤検知率(0.02%)と高い早期検知率(96.28%)を実現しています。
# 詳細解説
## 問題設定
### 入力
- クラウド環境でホスト上で動作するVMから生成される様々なログデータ(ハイパーバイザーログ、サーバーログ)
- これらのログはVM障害の前兆を含む可能性がある生のイベントデータ
### 出力
- リアルタイムでの異常検知スコア
- VM障害の事前検知と予測
- プロアクティブなVM移行のための警告シグナル
### 必要データ
- 通常動作時のVM/サーバーログデータ(ベースラインとして使用)
- 様々な障害シナリオを再現するためのテストベッド環境
- ログデータには、OOM(メモリ不足)障害、ハードディスク障害、バッファI/Oエラー、CPUオーバーユーティライゼーション障害が含まれる
- 各障害タイプについて130〜150のインスタンスが収集され、合計691のデータセットと100万行以上のログライン
## 提案手法
論文ではVMFT-LAD (Virtual Machine Proactive Fault Tolerance using Log-based Anomaly Detection)という半教師あり型のリアルタイムログ異常検知モデルを提案しています。
### 主要コンポーネント
1. **異常検知モジュール**:修正されたMatrix Profileアルゴリズムを使用
2. **部分シーケンス(サブシーケンス)ストア**:max-heapとハッシュセットを使用した効率的なデータ構造
3. **適応学習モジュール**:大規模言語モデル(LLM)を活用したフィードバックメカニズム
### アルゴリズムの詳細
1. **前処理**:
- 生ログデータから時間情報とログメッセージを抽出
- DRAIN-3パーサーを使用してログテンプレート、テンプレートID(ログキー)、パラメータを抽出
2. **異常検知プロセス**:
- 修正されたMatrix Profileを使用して、新しいログキーのサブシーケンスについて異常スコア(β_i)を計算
- 相対距離測定法を使用して0〜1の範囲でスコアを正規化
- 異常スコアが閾値θを超える場合、異常と判断
3. **適応学習プロセス**:
- 異常が検出された場合、LLMを呼び出してログテンプレートが障害関連かどうかを判断
- 実際の障害関連ログの場合、VMの移行シグナルを送信
- 誤検知の場合、部分シーケンスストアを更新して将来同様の誤検知を避ける
4. **ログ解析でのLLM活用**:
- 障害関連のログかどうかを分類するためにフューショット学習(数例学習)を使用
- GPT-3.5 Turboなど複数のLLMについて評価
## 新規性
1. **半教師あり学習アプローチ**:
- 従来研究の多くは教師あり機械学習モデルを使用し、ラベル付きデータが必要
- VMFT-LADは正常時のログデータのみで訓練可能で、人間の介入を最小限に
2. **LLMとMatrix Profileの組み合わせ**:
- Matrix Profileの効率性とLLMの自然言語理解能力を組み合わせる革新的アプローチ
- 従来のMatrix Profileを改良し、相対距離測定法とmax-heapベースの実装を導入
3. **未知の障害タイプへの対応**:
- 既知の障害パターンだけでなく、未知の障害パターンも検出可能
- 環境の変化に適応する能力を持つ
4. **早期障害検知の厳密な評価**:
- VM移行に必要な時間と比較した早期障害検知能力の実証的評価
- 実際のVM移行プロセスのデータを用いた評価
## 実験設定
### データセット
- 4台の物理マシンから5ヶ月間(約170日)にわたって収集された691のデータセット
- 各データセットは以下の3つの領域に分かれる:
1. 正常領域(障害注入前の正常状態)
2. 障害前領域(障害注入後かつ完全な障害発生前)
3. 障害後領域(完全な障害発生後)
### 評価指標
1. **Criteria-1(緩和基準)**:
- 障害注入後のいずれかの時点で異常を検出できればTrue Positive
- 基本的な異常検知能力を評価
2. **Criteria-2(厳格基準)**:
- 完全な障害発生前に異常を検出できた場合のみTrue Positive
- プロアクティブ障害耐性実現のための早期検知能力を評価
3. **NAB(Numenta Anomaly Benchmark)スコア**:
- 早期で正確な異常検知のための標準化されたベンチマーク
- 3種類のスコア:Standard、Reward Low FP、Reward Low FN
4. **追加評価指標**:
- ROC曲線とAUC(曲線下面積)
- 誤検知率と早期検知率
- 実行時間(レコード処理時間)
### 比較手法
- VMFT-LAD(フィードバックなし)
- VMFT-LAD(様々なLLMを使用:GPT-3.5 Turbo、Falcon 7B、Cyrax 7B、Emerton Monarch 7B、Bart Large)
- HTM(Hierarchical Temporal Memory)
- KNN-CAD(K-Nearest-Neighbours Conformal Anomaly Detection)
- EXPOSE(EXPected Similarity Estimation)
- ARTime(Adaptive Resonance Theory)
- DeepLog(LSTM-based log anomaly detection)
## 実験結果
### ROC曲線分析
- VMFT-LAD with GPT 3.5 Turboは、すべてのデータセットで最高のAUC値(0.996-0.999)を達成
- HDD障害データセット:ほとんどのモデルがAUC 0.9以上を達成
- CPUオーバーアロケーション障害:厳格基準下ではGPT 3.5 Turbo(AUC: 0.996)とDeepLog(AUC: 0.783)が最も高性能
- OOM障害:GPT 3.5 Turboが最高(AUC: 0.998)、他のモデルは厳格基準で性能が大幅低下
- バッファI/Oエラー:ほとんどのモデルが高いAUC値(0.98以上)を達成
### NABスコア
- VMFT-LAD with GPT 3.5 Turboは標準スコアで90.74を達成(厳格基準下)
- 他のモデルと比較して大幅な改善を示す
- DeepLogは71.5の標準スコアで2位
### 誤検知率と早期検知率
- VMFT-LAD:0.02%の誤検知率と96.28%の早期検知率
- DeepLog:100%の早期検知率だが、0.37%の比較的高い誤検知率
- HTM:0.07%の誤検知率だが、62.08%とやや低い早期検知率
### 実行速度
- VMFT-LAD(フィードバックなし)とARTimeが最速(サブミリ秒レベル)
- HTMが最も遅い(約8.76ミリ秒/レコード)
- すべてのモデルは実際のログ生成速度(平均163.9ミリ秒間隔)に対応可能
### VM移行時間との比較
- VMFT-LADによる障害検知の平均リードタイム:3.033-15.651分(障害タイプによる)
- 20GBのVMの移行時間:約45秒(pre-copy技術使用時)
- すべてのモデルが障害発生前にVMを移行するのに十分な早期検知が可能
以上の結果から、VMFT-LADは低い誤検知率と高い早期検知率を両立し、プロアクティブVM障害耐性を実現する効果的なソリューションであると結論付けられています。
```
## Abstract
仮想マシン(VM)のフォールト・トレランスは、クラウド・コンピューティング環境における高可用性を保証する。プロアクティブ・フォールト・トレランス戦略は、潜在的な障害を事前に検出し、VMを健全なホストに移行することで、サービスの中断を回避します。本論文では、効果的なVMフォールトトレランスを提供するために、事前に障害を検出することができる半教師付きリアルタイムログ異常検出モデルである、ログベースの異常検出を使用したVirtual Machine Proactive Fault Tolerance(VMFT-LAD)を提案します。VMFT-LADは、マトリックス・プロファイルの効率的な異常検知機能とラージ・ランゲージ・モデル([[LLM]])のログ推論機能を活用し、誤検知を最小限に抑えながら、潜在的なVM障害を早期に特定します。改良されたマトリックス・プロファイルにより、VMFT-LADは最小限の人的介入で、予期せぬ障害タイプを含む潜在的な障害を継続的に学習し、特定することができます。さらに、その半教師ありきの性質により、ラベル付けされた故障データの必要性を排除します。VMFT-LADの卓越した性能は、異常検知と早期故障検知能力を検証するために2つの異なる基準を用いて、複数のデータセットで広範な評価を行った結果、実証されています。VMFT-LADは、Numenta Anomaly Benchmark(NAB)の標準スコア90.74を達成し、96.28%という高い早期検知率と0.02%という低い誤検知率により、障害が発生する前に正確かつタイムリーなVMマイグレーションを実現します。