## Memo ## Memo with LLM ![[Pasted image 20241118164935.png]] ## Abstract アラートは、潜在的な問題をエンジニアに迅速に通知することで、異常を検出し、オンラインサービスシステムの円滑な運用を確保するために不可欠なツールです。 しかし、ITインフラストラクチャの規模と複雑さが増すにつれ、システム障害時に「[[Alert Storm]]」が発生し、多くの場合相関性のあるアラートの洪水でエンジニアを圧倒することがよくあります。 したがって、効果的なアラート集約は、根本原因を分離し、障害解決を加速する上で極めて重要です。 既存のアプローチは、通常、意味的類似性または統計的手法のいずれかに依存しており、どちらも、因果関係を無視したり、頻度の低いアラートの処理に苦労するなど、重大な限界を持っている。 これらの欠点を克服するために、我々は新しい2段階のアラート集約アプローチを提案する。 我々は、時間的近接性と空間的属性に基づいてアラートをグループ化するために、時間的空間的クラスタリングを採用する。 第二段階では、大規模言語モデルを利用してサービス障害のカスケード効果を追跡し、同じ根本原因を共有するアラートを集約する。 実世界のクラウドプラットフォームのデータセットを用いた実験評価により、従来の集約技術と比較して優れたパフォーマンスを達成し、本手法の有効性を実証している。