## Memo
- [[ARISE Lab]]グループからの論文。
## Abstract
ログデータは、ソフトウェアシステムの自動メンテナンスにおける異常検知や故障診断のような活動において極めて重要である。非構造化フォーマットのため、自動分析のために構造化フォーマットに変換するログ解析がしばしば必要となります。様々なログ解析ツールが存在するため、これらのツールの機能と性能を理解するためのベンチマークが不可欠です。しかし、ログ構文解析のための既存のデータセットは、規模と代表性の点で限られており、ログ構文解析ツールを評価または開発することを目的とした研究に課題をもたらします。この問題は、これらの構文解析が実運用で評価される場合、より顕著になります。このような問題に対処するために、実世界のソフトウェアシステムで観測されるログデータをより正確に反映した、LogPubと名付けられた大規模な注釈付きログデータセットの新しいコレクションを紹介する。LogPubは14のデータセットから構成され、各データセットは平均360万行のログである。LogPubを利用して、より厳密で実用的な設定で15のログ解析器を再評価する。また、アンバランスなデータ分布に対する現在の評価指標の感度を下げるために、新しい評価指標を提案する。さらに、まれなシステムイベントを表し、システムのトラブルシューティングのための包括的な情報を提供するログについて、ログ構文解析の詳細なパフォーマンスを精査した最初の例です。このようなログを正確に解析することは非常に重要ですが、困難です。我々の研究は、より現実的な設定におけるログ構文解析器の設計と評価に光を当てることができ、それによって本番システムへの実装が容易になると信じている。