## Memo
- 北京大学の研究グループ
## Memo with LLM
## Abstract
分散データベースは、クラウドシステムのような今日の大規模ソフトウェアシステムの基本的なインフラストラクチャである。分散データベースの異常を検出することは、ソフトウェアの可用性を維持するために不可欠である。様々なシステムからのログデータセットの包括的なコレクションである[[Loghub]]を使用して主に開発された既存のアプローチは、独自の異常を示す分散データベースに特化したデータセットを欠いています。さらに、マルチアノマリ、マルチノードログを含むデータセットが存在しない。その結果、主にスタンドアロンシステム用に設計されたこれらのデータセットに基づいて構築されたモデルは、分散データベースには不適切であり、単一のノードの異常に基づいてクラスタ全体を異常とみなす一般的な方法は、高い偽陽性率をもたらす。本論文では、分散データベースにおけるログの特異な異常性と多変量性に対処する。分散データベースの多変量ログを含む、オープンソースの包括的なデータセットを初めて公開する。このデータセットを利用して、複数のデータベース異常を特定し、多変量ログデータを利用した最新の異常検知の有効性を評価するための広範な研究を実施する。その結果、分散データベースの正確な異常検知には、単一ノードからのログのみに依存するのでは不十分であることが明らかになった。これらの知見を活用し、分散データベース向けに調整された革新的な多変量ログベースの異常検知アプローチであるMultiLogを提案する。この新しいデータセットに基づく我々の実験により、MultiLogの優位性が実証され、既存の最先端手法を約12%上回る。