# Robust log-based anomaly detection on unstable log data
Created: January 27, 2021 1:44 PM
URL: https://dl.acm.org/doi/10.1145/3338906.3338931
Year: 2019
# Abstract
Logs are widely used by large and complex software-intensive systems for troubleshooting. There have been a lot of studies on log-based anomaly detection. To detect the anomalies, the existing methods mainly construct a detection model using log event data extracted from historical logs. However, we find that the existing methods do not work well in practice. These methods have the close-world assumption, which assumes that the log data is stable over time and the set of distinct log events is known. However, our empirical study shows that in practice, log data often contains previously unseen log events or log sequences. The instability of log data comes from two sources: 1) the evolution of logging statements, and 2) the processing noise in log data. In this paper, we propose a new log-based anomaly detection approach, called LogRobust. LogRobust extracts semantic information of log events and represents them as semantic vectors. It then detects anomalies by utilizing an attention-based Bi-LSTM model, which has the ability to capture the contextual information in the log sequences and automatically learn the importance of different log events. In this way, LogRobust is able to identify and handle unstable log events and sequences. We have evaluated LogRobust using logs collected from the Hadoop system and an actual online service system of Microsoft. The experimental results show that the proposed approach can well address the problem of log instability and achieve accurate and robust results on real-world, ever-changing log data.
(以下,DeepL翻訳)
ログは、大規模で複雑なソフトウェア集約型システムでトラブルシューティングのために広く利用されています。ログベースの異常検知に関する研究は数多く行われてきました。既存の手法では、主に過去のログから抽出したログイベントデータを用いて検出モデルを構築して異常を検出していますが、実際にはうまく機能しないことがわかりました。しかし,既存の手法は実際にはうまく機能しないことがわかってきた.これらの手法は、ログデータが経時的に安定しており、かつログイベントの集合が既知であることを前提としたクローズワールド仮定を採用している。しかし、我々の経験的研究では、実際には、ログデータには、以前には見られなかったログイベントやログシーケンスが含まれていることがよくあることがわかった。ログデータの不安定性は2つのソースから来ています。1)ログ文の進化、2)ログデータの処理ノイズである。本稿では、LogRobustと呼ばれる新しいログベースの異常検出アプローチを提案する。LogRobustはログイベントの意味情報を抽出し、意味ベクトルとして表現する。LogRobustはログイベントの意味情報を抽出し、意味ベクトルとして表現し、注目度ベースのBi-LSTMモデルを用いて異常を検出する。このようにして、LogRobustは不安定なログイベントやシーケンスを識別し、処理することができます。Hadoopシステムとマイクロソフトの実際のオンラインサービスシステムから収集したログを用いて、LogRobustの評価を行った。実験結果は、提案されたアプローチがログの不安定性の問題にうまく対処でき、実世界の刻々と変化するログデータ上で正確かつロバストな結果を達成できることを示している。