## Memo
## Abstract
IT運用のためのAI([[AIOps]])は、サイト信頼性エンジニア([[notes/sre/SRE]])が最小限の人的介入で運用ワークフローを自動化し、合理化するために使用する強力なプラットフォームです。自動化されたログ分析は、SRE が進行中の障害を特定して対処するための重要な洞察を提供するため、AIOps における重要なタスクです。ログフォーマットの検出、ログの分類、ログの解析などのタスクは、自動ログ分析の重要なコンポーネントです。これらのタスクのほとんどは教師あり学習を必要としますが、ラベル付けされたログデータが限られていることや、ログデータが多様であることから、複数の課題があります。
[[BERT]]やGPT3などの大規模言語モデル([[notes/data-science/LLM]])は、ラベル付けされていない膨大な量のデータ上で自己教師を使って訓練されます。これらのモデルは、限られたラベル付きデータで様々な下流タスクに効果的に使用できる一般化された表現を提供します。科学や生物学のような特定の領域におけるLLMの成功に動機づけられ、本稿では、公開データと専有ログデータで学習されるログデータ用のLLMを紹介する。実験の結果、提案するLLMは複数のダウンストリームタスクにおいて既存のモデルを凌駕することが実証された。要約すると、LLMを利用したAIOpsは、ログ分析タスクを自動化し、SREがより高度なタスクに集中できるようにするための効率的かつ効果的なソリューションを提供します。パブリックおよびプロプライエタリなログデータでトレーニングされた我々の提案するLLMは、複数のダウンストリームタスクで優れたパフォーマンスを提供し、AIOpsプラットフォームへの価値ある追加となる。