## Memo
## Abstract
大規模クラウドシステムの保守において、障害診断は非常に重要であり、過去10年間、学術界や産業界から多大な注目を集めてきた。本論文では、同じ対象(APIリクエスト、VM、ノードなど)のインスタンスのバッチに発生し、サービスの可用性とパフォーマンスが低下するバッチ障害の診断に焦点を当てる。大量の高次元テレメトリデータ(ログ、トレース、メトリクスなど)を手作業で調査するのは、干し草の山から針を見つけるように、労力と時間がかかります。一方、既存の提案されたアプローチは、通常、特定のシナリオ用に調整されており、多様なシナリオへの応用を妨げています。世界をリードする2つのクラウドシステムであるAzureとMicrosoft 365の経験によると、バッチ障害が発生した場合、根本的な原因を見つける手順は、失敗した対成功した、遅い対正常、または異常発生中対発生前といった2つのインスタンスグループを比較することによって、対照的なパターンを探すように抽象化することができます。そこで我々は、コンテキストデータから自動的にコントラストパターンを抽出できる、効率的で柔軟なフレームワークであるCONANを提案する。CONANは、様々な製品の複数の診断ツールへの統合に成功しており、実世界のバッチ障害の診断における有用性を証明している。