## Memo
## Abstract
アラートは、クラウドの異常発生時に迅速な人的介入を要請するために極めて重要である。アラートの品質は、クラウドの信頼性とクラウドプロバイダーの事業収益に大きく影響する。実際には、誤解を招きやすく、情報を与えず、アクションを起こせないアラートが大量に存在するため、オンコール・エンジニアが故障のあるクラウド・サービスを迅速に発見し、修正することを妨げられていることが観察される。私たちはこのようなアラートの非効率性を「アンチパターン・アラート」と呼んでいる。アラートのアンチパターンをより良く理解し、アンチパターンを緩和するための実用的な対策を提供するために、本稿では、産業クラウドシステムにおけるアラートのアンチパターンを緩和する実践に関する初の実証研究を行う。我々は、大手クラウドプロバイダーであるHuawei Cloudにおけるアラート戦略とアラート処理手順を研究している。我々の研究は、2年間で数百万件のアラートの定量的分析と、18人の経験豊富なエンジニアへのアンケート調査を組み合わせたものである。その結果、アラートの4つの個別アンチパターンと2つの集団アンチパターンをまとめた。また、アラートのアンチパターンを緩和するための現在の4つの反応と、アラート戦略を構成するための一般的な予防ガイドラインを要約する。最後に、アラートのアンチパターンの自動検出を支援する将来の研究方向として、アラートの指示性、精度、扱いやすさを含むアラートの品質(QoA)の自動評価を探求することを提案する。本研究で得られた知見は、クラウド監視システムを最適化し、クラウドサービスの信頼性を向上させるために有益である。