## Memo ## Abstract 大規模なクラウドシステムでは、計画外のサービス中断や停止によって、サービスの可用性が著しく低下する可能性がある。このようなインシデントはバースト的に発生する可能性があり、ユーザーの満足度を悪化させる。インシデントを迅速かつ正確に特定することは、クラウドシステムの運用と保守にとって極めて重要である。通常、インシデントは、クラウドサービスを監視することによって長期的に生成される問題レポートを分析することによって検出される。大量の課題レポートからインシデントを特定することは非常に困難です。通常、課題レポートは多次元であり、多くのカテゴリー属性を持っています。インシデントを示す特定の属性の組み合わせを特定することは困難です。既存の手法は一般に、刈り込みに基づく検索に依存しており、高次元データでは時間がかかるため、大規模なクラウドシステムにおけるインシデント検出には実用的ではない。本論文では、MID(Multi-dimensional Incident Detection)を提案する。MIDは、大量かつ多次元の課題レポートから効率的かつ効果的にインシデントを特定するための新しいフレームワークである。MID設計の鍵は、問題を組み合わせ最適化問題にエンコードすることである。そして、インシデントを示す属性の組合せを迅速に特定することができる、特定に合わせたメタ・ヒューリスティック探索法を設計する。我々は、合成データと大規模生産クラウドシステムから収集した実世界データの両方を用いた広範な実験によりMIDを評価する。実験結果は、MIDが有効性と効率性の点で現在の最先端手法を大幅に上回ることを示している。さらに、MIDはMicrosoftのクラウドシステムへの適用に成功し、手作業による保守作業の大幅な削減に貢献した。