## Memo
この論文が取り扱う問題と提案手法は以下のようにまとめられます。
問題設定:
- クラウドシステムの障害時には大量のアラートが発生し(alert storm)、アラートを手作業で処理するのは非現実的である。効率的な障害対応のため、同じ原因で発生したアラートをまとめる(alert aggregation)ことが重要。
既存手法とその課題:
- 意味的類似性に基づく手法: アラートの因果関係を考慮できない。
- 統計的手法: 頻度の低いアラートへの対応が難しい。
提案手法COLA (COrrelation mining and LLM reasoning for online Alert Aggregation):
- Standard Operation Procedure (SOP)と呼ばれるアラートの詳細情報を活用し、因果関係の推論を行う。
- 相関マイニングとLLMを組み合わせたハイブリッドアプローチ。
- 相関マイニングモジュール: アラートの時間的・空間的関係から相関を効率的に評価。
- LLMモジュール: 相関マイニングで関連性が不明確だったペアのみをLLMで詳細分析。
- LLMへの知識の与え方として、[[In-Context Learning]] (ICL)とSupervised Fine-Tuning (SFT)を活用。
提案手法の利点:
- 頻出アラートには統計的証拠を、希少アラートにはLLMの推論能力を活かすことで、大規模アラート処理を効率化。
- 3つの実データセットでSOTAの性能(F1値0.901~0.930)を達成し、効率性も同等。
- 実運用環境での4か月のデプロイ経験から有用性を確認。
既存手法に関する記述を抽出し、並び替えると以下のようになります。
具体的な手法:
AlertStorm [39]:
- アラートストームを検出し、要約する手法を提案。
- アラートのデノイジングにisolation forest、クラスタリングにDBSCANを使用。
LiDAR [6]:
- テキスト埋め込みモジュールとコンポーネント表現学習モジュールを用いて、関連するインシデントを特定。
OAS [3]:
- アラート単語の文脈情報を集約し、アラートの共通動作パターンをマイニング。
- 上記2種類のアラート情報を組み合わせ、深層学習モデルで関連性を判定。
iPACK [25]:
- アラート解析、インシデントプロファイリング、チケットとイベントの関連付けから成る。
- インシデントプロファイリングでノイズとなるイベントを除去し、同じインシデントが原因のイベントを関連付け。
これらの手法は、意味的類似性や統計的な共起パターンに基づいてアラートを関連付けているが、因果関係の考慮や希少アラートへの対応が不十分という課題がある。
## Abstract
クラウドシステムは規模が大きく複雑であるため、システム障害は「[[Alert Storm|アラートストーム]]」、すなわち大量の相関アラートを引き起こす。これらのアラートはいくつかの根本原因まで遡ることができるものの、圧倒的な数のため手作業で処理することは不可能である。そのため、エンジニアが根本原因に集中し、障害解決を促進するためには、アラートの集約が不可欠です。既存の方法は、通常、意味的類似性に基づく方法または統計的方法を利用してアラートを集約する。しかし、意味的類似性に基づく方法はアラートの原因的根拠を見落とし、統計的方法は頻度の低いアラートをほとんど扱うことができない。
これらの限界に対処するために、我々は外部知識を活用すること、すなわちアラートの標準操作手順(SOP)を補足として導入する。我々は、オンラインアラート集計のための相関マイニングと[[LLM]](大規模言語モデル)推論に基づく新しいハイブリッドアプローチであるCOLAを提案する。相関マイニング・モジュールは、アラート間の時間的・空間的関係を効果的に捉え、効率的な方法でそれらの相関を測定する。その後、信頼度の低い不確実なペアのみが詳細分析のためにLLM推論モジュールに転送される。このハイブリッド設計は、頻繁に発生するアラートに対する統計的根拠と、計算集約的なLLMの推論能力の両方を活用し、実用的なシナリオで大量のアラートを処理する際のCOLAの全体的な効率を保証する。我々は、大規模クラウドプラットフォームの本番環境から収集した3つのデータセットでCOLAを評価した。実験結果は、COLAが0.901から0.930のF1スコアを達成し、最先端の手法を凌駕し、同等の効率を達成したことを示している。また、我々の実際のクラウドシステムであるCloud XにCOLAを導入した経験についても紹介する。