## Memo ## Abstract 自動ログ解析は、ログの解析、ログの異常検知、ログに基づく障害予測などの重要なタスクを実行し、最新のデータセンターネットワークに広く適用されている。しかし、既存のアプローチは、ログを表現するために手作業で作成された特徴やドメイン固有のベクトルに依存しており、手作業では手間がかかるか、システム内の複数のドメインに直面すると効果がありません。さらに、汎用の単語埋め込みはログデータ用に最適化されていないため、複雑なログ分析タスクを扱うにはデータ効率が悪い。本稿では、ログの文中特徴量と文横断的特徴量の両方を理解するための言語モデルの事前学習フェーズを提示する。事前学習フェーズは教師なしであり、16の多様なドメインからの0.45億のログを利用する。3つのタスクにわたる12の一般に利用可能な評価データセットでの実験により、特に過去のログが限られたオンラインシナリオにおいて、既存のアプローチに対する我々のアプローチの優位性が示された。また、我々のアプローチは、必要な学習データのわずか0.0025%で既存のアプローチを凌駕するだけでなく、わずかなドメイン内ログを経由して新しいドメインに適応する、驚くべき少数ショット学習能力とドメイン適応性を示す。我々のコードと訓練済みモデルを公開する。