2024__IPDPS__MAAD - A Distributed Anomaly Detection Architecture for Microservices Systems

## Memo ## Memo with LLM ## Abstract 異常検知は、システム管理者が迅速に異常を検知し対応できるようにすることで、マイクロサービスシステムにおいて重要な役割を果たします。しかし、既存の異常検知システムは、多くの場合、多様なシステムコンポーネントからのログとトレースデータを一元化する必要があり、分析のためにリソース集約的な統計手法やディープラーニングモデルに依存しています。このアプローチは、リアルタイムの異常検知を妨げ、コンピューティングリソースに大きな需要を必要とする。本論文では、この限界に対処するために、MAADと呼ばれるマルチエージェントベースの分散型異常検知アーキテクチャを設計する。 MAADは、異常行動を分散的に識別するために協力し合うエージェントの集合体から構成される。各エージェントは、単一のサービスと共にデプロイされ、自身のログ、ローカルコンテキスト、および親スパンのサービスから抽出された情報に基づいて、ローカルの異常検知を実行するために軽量の機械学習技術を適用する。マイクロサービスのリクエストのグラフ情報を保持するために、エージェントは、先行するサービスから学習された集合的なパターンを考慮して、互いに本質的な特徴を通信することができる。我々は2つのマイクロサービスデータセット、[[TrainTicket]]と[[Generic AIOps Atlas|MicroSS]]でMAADの有効性を評価し、MAADが高い精度（最大95.8%）と再現率（最大99.6%）を達成し、最先端の集中型異常検知アプローチを凌駕することを示す。集中型アプローチと比較して、MAADは異常検知前の転送データ量を約88%削減し、リアルタイムの異常検知を容易にします。さらに、MAADは軽量であるため、マイクロサービスシステムへの影響を最小限に抑えながら、迅速な異常検知を実現します。[[2017__CCS__DeepLog - Anomaly Detection and Diagnosis from System Logs through Deep Learning|DeepLog]]と比較して、MAADはGPUアクセラレータを使用せずに検出時間を約92%短縮します。