## Memo
## Memo with LLM
## Abstract
大規模なクラウドサービスでは、その安定性に重大な影響を及ぼす可能性のあるインシデントが頻繁に発生します。インシデントのトリアージは、インシデントを専任チームに割り当てて解決する重要なプロセスです。しかし、さまざまなシステムで一般的に採用されている従来のルールベースの手法には、限られたルールセットを継続的に更新する必要があるため、最適とは言えないパフォーマンスにつながるという限界があります。現在の最先端のアプローチは、主にテキスト情報に依存しており、分類器や教師なし[[クラスタリング]]を利用しています。残念ながら、大量のテキスト情報にはノイズも多く含まれているため、これらの方法の精度には大きな課題があります。これらの課題に対処するために、我々はAutoExtractorを利用して重要でないログをフィルタリングし、キーワード抽出に大規模言語モデル([[LLM]])を採用した革新的なシステム、COMETを導入しました。このアプローチは、無秩序なテキスト情報から生じる複雑性を効果的に軽減します。さらに、COMETはキーワード抽出の際に重要なドメイン知識を取り込み、LLMのテキスト理解力を高めます。我々はCOMETをマイクロソフト内の複数のクラウドサービスに導入し、6か月以上継続的に運用してきました。オフラインおよびオンラインでの評価により、COMETは精度の向上とTime to Mitigation(TTM)の短縮を実現していることが示されています。