2023__arXiv__Prompting for Automatic Log Template Extraction

## Memo ## Abstract 自動化されたログ解析の初期段階であり重要な段階であるログ解析は、構造化されたログを生成するために、半構造化ログからログテンプレートを抽出することを含む。それにもかかわらず、現在のログ構文解析ツールは、2つの主な理由により、有効性が制限されています。第一に、従来のデータ駆動型ログ構文解析器は、ヒューリスティックまたはドメイン専門家によって提供された手動で作成された特徴に大きく依存しており、多様なログシステムに適用された場合、一貫して最適な性能をもたらさない可能性がある。第二に、既存のディープラーニングベースのログパーサーは、モデルのチューニングが必要であり、これは一般的にトレーニングサンプルに限定され、ログソース全体にわたって最適でないパフォーマンスにつながる。これらの制限を克服するために、我々は、[[notes/data-science/LLM|大規模言語モデル]]のコンテキスト内推論機能を活用するLogDivと名付けられた正確なログ構文解析フレームワークを提案する。具体的には、LogDivは、プロンプトデモンストレーションを通じて、複数のログ例から隠れたセマンティクスを抽出する。モデルのチューニングを必要とせず、LogDivはプロンプトコンテキストで提供されるセマンティクスを活用することで、ターゲットログメッセージのログテンプレートを直接生成することができる。さらに、出力を抽出し、生成されたログテンプレートの品質を向上させるための、シンプルで効果的なプロンプトフォーマットを紹介する。LogDivの性能を検証するために、広く利用されている16の公開データセットを用いて実験を行った。その結果、LogDivは平均構文解析精度97.7%、テンプレート精度88.1%、テンプレート再現精度90.8%という最先端の性能を達成した。