## Memo ## Abstract ログ解析は、ログのテンプレートやパラメータを抽出するものであり、自動ログ解析技術の重要な前提条件となるステップです。既存のログ解析器は、公開されたログデータに対して有望な精度を達成していますが、産業界で適用する際には多くの課題に直面しています。実世界のログデータの特徴を調査し、既存のログ解析器の限界を分析することで、2つの問題点を明らかにしました。1つ目は、膨大なログデータに対してログパーサーを拡張することは、特にログデータが極端に不均衡な実環境では非自明であることです。また、既存のログ解析器はユーザからのフィードバックを重要視しておらず、ログデータの継続的な変化の中で解析器の微調整を行うことが不可欠です。このような課題を克服するために、我々はユーザーフィードバック機能を備えた拡張性の高いログ解析器SPINEを提案します。初期グループ化と漸進的クラスタリングを備えたログパーサーをベースに、大規模で不均衡なログデータの下で並列化の効率を向上させる、新しいログデータスケジューリングアルゴリズムを提案する。さらに、ユーザからのフィードバックを導入することで、パーサを進化するログに高速に適応させる。我々はSPINEを16の公開ログデータセットで評価した。SPINEは平均0.90以上の構文解析精度と最高の構文解析効率を達成し、最新のログパーサーを凌駕しています。また、マイクロソフト社のプロダクション環境においてSPINEを評価したところ、16のエグゼキュータ環境で3000万件のログを8分以内に解析し、リアルタイムに近い性能を達成しました。さらに、我々の評価では、SPINEは適度な数のユーザフィードバックがあるログ進化のもとで、常に良好な精度を達成できることを示しました。 ## 1. Introduction