@2022__DSN__Characterizing and Mitigating Anti-patterns of Alerts in Industrial Cloud Systems

# Characterizing and Mitigating Anti-patterns of Alerts in Industrial Cloud Systems Navigation: [[index]] | [[アラート管理]] | [[Huawei Cloud]] > [!abstract] 概要(arXiv abstract の日本語訳) > アラートはクラウド異常への迅速な人手介入を要求するうえで欠かせない。アラートの質はクラウドの信頼性とクラウド事業者の事業収益に大きく影響する。実務上、誤導的・情報量不足・行動可能でないアラートが大量に存在することで、オンコールエンジニアが故障したクラウドサービスを素早く特定して修正することが妨げられている様子を我々は観察してきた。我々はこのアラートの非有効性を「アラートのアンチパターン」と呼ぶ。アラートのアンチパターンをよりよく理解し、その緩和に向けた行動可能な施策を提供するため、本論文では産業用クラウドシステムにおけるアラートのアンチパターン緩和実務に関する初の経験的研究を行う。我々は主要クラウド事業者である Huawei Cloud のアラート戦略とアラート処理手順を調査する。本研究は 2 年間にわたる数百万件のアラートの定量分析と、経験豊富なエンジニア 18 名に対するアンケートを組み合わせる。結果として、4 個の個別アンチパターンと 2 個の集合アンチパターンを整理した。また、アンチパターンを緩和するための現行 4 種の対処と、アラート戦略の設定に対する一般的な予防ガイドラインも整理した。最後に、アラートのアンチパターンの自動検知を支援する将来の研究方向として、Quality of Alerts(QoA)の自動評価——指示性(indicativeness)・精度(precision)・処理容易性(handleability)——の探究を提案する。本研究の知見はクラウド監視システムの最適化およびクラウドサービスの信頼性向上に有用である。 ## 論文情報 - **タイトル**: Characterizing and Mitigating Anti-patterns of Alerts in Industrial Cloud Systems - **著者・所属**: [[Tianyi Yang]]・[[Jiacheng Shen]]・[[Xiaoxue Ren]]・[[Michael R. Lyu]]([[The Chinese University of Hong Kong]] 計算機科学工学科)、[[Yuxin Su]]([[Sun Yat-sen University]] ソフトウェア工学院、責任著者)、[[Yongqiang Yang]]([[Huawei Cloud]] Computing and Networking Innovation Lab) - **発表媒体**: 52nd Annual IEEE/IFIP International Conference on Dependable Systems and Networks(DSN'22) - **発表年**: 2022 / arXiv 投稿日 2022-04-13 - **arXiv ID**: 2204.09670 / IEEE Xplore Document 9833624 - **DOI**: 10.48550/arXiv.2204.09670 ## 概要 [[Huawei Cloud]] の 11 クラウドサービス・192 マイクロサービス、2 年間にわたる 400 万件超のアラートと 18 名の経験豊富なオンコールエンジニア(OCE)へのアンケート調査を組み合わせ、産業用クラウドにおけるアラートのアンチパターン(misleading / non-informative / non-actionable なアラート)を初めて経験的に特徴づけた研究である。6 個のアンチパターン(4 個別+2 集合)・4 種の現行対処(alert blocking / aggregation / correlation analysis / emerging alert detection)・3 観点の予防ガイドライン(target / timing / presentation)を整理し、将来方向として Quality of Alerts(QoA)の自動評価を提案する。 **Figure 2: 図** ![[_attachments/arxiv-2204.09670/fig2-figure.png]] (Figure 2. survey about the current practice of mitigating the anti-patterns of alerts を示す。) ## 問題設定 - **対象**: クラウド事業者のシステム信頼性アラート(system reliability alerts)。本研究は probes・logs・metrics の 3 系統のアラート戦略のみを対象とし、ユーザリクエストの個別失敗等は範囲外。 - **入力**: 大規模クラウド監視システムが 2 年間に生成した 400 万件超のアラートと、2010 個のアラート戦略、18 名の OCE 調査回答。 - **出力**: アラートのアンチパターン分類、現行対処の整理、予防ガイドラインの整理、将来研究方向。 - **前提**: アラート戦略は service-specific で経験的に設定され、SOP(Standard Operating Procedure)と一体で運用される。両者の統一管理を「alert governance」と呼ぶ。 ## 提案手法経験的研究の方法論を以下のように構成する。 - **RQ1(アンチパターンは何か)**: アラート戦略ごとに平均処理時間を計算し、上位 30% を個別アンチパターン候補に。集合アンチパターン候補は時間×地域でグルーピングし、1 時間 1 地域 200 件超を抽出。経験豊富な OCE 2 名が候補にアンチパターン判定を付し、意見が割れたら 3 人目を呼ぶ二段階レビュー。 - **RQ2(標準処理手順)**: SOP の構造(名称・記述・生成ルール・潜在影響・想定原因・診断手順)を例示し、OCE 調査で有用性(Q1:overall・Q2:individual・Q3:collective)を評価。 - **RQ3(現行対処)**: 4 種の reaction(R1〜R4)を抽出し、OCE による有効性評価を提示。 - **RQ4(予防ガイドライン)**: 3 観点(target・timing・presentation)から設計指針を抽出。 **Figure 1: 図** ![[_attachments/arxiv-2204.09670/fig1-figure.png]] (Figure 1. signiﬁcance of alerts for cloud reliability を示す。) **Figure 6: 図** ![[_attachments/arxiv-2204.09670/fig6-figure.png]] (Figure 6. Incorporating human knowledge and machine learning to detect anti- patterns of alerts を示す。) **Figure 3: 図** ![[_attachments/arxiv-2204.09670/fig3-figure.png]] (Figure 3. Repeating alerts in an alert storm を示す。) **Figure 4: 図** ![[_attachments/arxiv-2204.09670/fig4-figure.png]] (Figure 4. Answers to Q1 “Overall Helpfulness” regarding OCEs’ working experience を示す。) ## 6 個のアンチパターン ### 個別アンチパターン(Individual) - **A1: Unclear Name or Description**: 「Instance x is abnormal」「Computing cluster has risks」のように曖昧な記述で直感的判断を妨げる。全 OCE が影響を認め、61.1% が高影響と判定。 - **A2: Misleading Severity**: 過剰に高い severity は時間を浪費し、低すぎる severity は重要アラートを見逃させる。88.9% の OCE が影響を認める。 - **A3: Improper and Outdated Generation Rule**: 下層インフラ(CPU・ディスク等)の指標は fault tolerance の進化で必ずしも顧客側品質に直結しなくなる。72.2% の OCE が高影響と判定。 - **A4: Transient and Toggling Alerts**: 一時的に発生して短時間で自動解除される transient alerts や、生成と解除が振動する toggling alerts は、メトリクス変動に過敏なアラート戦略が原因。94.4% の OCE が影響を認める。 ### 集合アンチパターン(Collective) - **A5: Repeating Alerts**(本研究で新たに同定): 同一アラート戦略から繰り返し発火するアラート。論文の代表ストームでは「haproxy process number warning」が毎時およそ 30% を占めるが WARNING(最低)レベルにとどまる例を示す。94.4% の OCE が影響を認める。 - **A6: Cascading Alerts**(Zhao et al. 2020 が既出): あるサービスの異常が依存先サービスに波及して大量のアラートが連鎖する。全 OCE が影響を認める。Table II の例: ブロックストレージの allocate 失敗(Alert 1)が直後にデータベースの commit 失敗(Alert 2&3)を引き起こす依存伝播。 ## 標準処理手順(SOP)の限界 - SOP は alert name・description・generation rule・potential impact・possible causes・steps to diagnose を含む(Figure 5 が `nginx_cpu_usage_over_80` の例)。 - 調査結果: 「Helpful」と評価したのは 22.2% のみで、77.8% は「Limited Help」。経験 3 年超の全 OCE が Limited Help と評価し、これは「Limited Help」回答者の 71.4% を占める。 - SOP は集合アンチパターン(Q3)の診断には個別アンチパターン(Q2)よりも有用性が落ちる。 ## 現行対処(Reactions) - **R1: Alert Blocking**: transient / toggling / repeating な情報量のないアラートをルールベースで遮断する。全 18 OCE が Effective と評価。 - **R2: Alert Aggregation**: 一定期間内のアラートを集約し、件数を別の特徴量として使う(参考: Chen+ 2021 のグラフ集約)。16 OCE が Effective、2 OCE が Limited。 - **R3: Alert Correlation Analysis**: 外部情報(アラート戦略間の依存関係・サービストポロジ)で相関を推定する。全 18 OCE が Effective。 - **R4: Emerging Alert Detection**: 適応的オンライン LDA で潜在的依存関係を取り出し、cascade に成長する前の少数の「emerging alert」を早期検知する。13 OCE が Effective、3 Limited、2 Not Effective。 ## 予防ガイドライン(Avoidance) - **Target(何を監視するか)**: サービス品質に直結する性能指標を選ぶ。下層インフラの指標は補助情報にとどめる。 - **Timing(いつ警告するか)**: 異常がサービス品質に影響するタイミングのみで発火させる。 - **Presentation(どう呈示するか)**: アラート属性(タイトル・重大度・位置情報)を診断に有用な形に整える。 - 88.9% の OCE が「ガイドラインを厳守すれば診断が容易になる」と認めつつ、実務では遵守されないと報告。 ## 新規性 - 産業用クラウドにおけるアラートのアンチパターンを初めて経験的に分類した(先行研究は alert correlation や clustering 単体に焦点を当てる)。 - **A5 Repeating Alerts** は本研究で初めて文書化された集合アンチパターン(A6 Cascading Alerts は Zhao+ 2020 が先行)。 - 後段の処理だけでなくアラート生成自体の質を扱う「alert governance」を提唱し、QoA(indicativeness・precision・handleability)による自動評価を将来方向に置く。 ## 実験設定 - **対象**: [[Huawei Cloud]] の 11 クラウドサービス・192 マイクロサービスの本番監視データ。 - **データ規模**: 2 年間で 400 万件超のアラート、2010 個のアラート戦略。 - **調査対象**: 18 名の経験豊富な OCE(3 年超 55.6%・2-3 年 16.7%・1-2 年 11.1%・1 年未満 16.7%)。 - **集合アンチパターン同定の閾値**: 1 時間 1 地域あたり 200 件超を集合アンチパターン候補とし、100 件超を「alert storm」と定義(連続時間は 1 ストームに合併)。 ## 実験結果 - **アンチパターン影響度の主観評価**(Figure 2(a)、High/Low/No Impact 計 18 票): - A1 Unclear Name/Description: High 11・Low 7・No Impact 0(全員が影響を認識)。 - A2 Misleading Severity: High 8・Low 8・No Impact 2(88.9% 影響あり)。 - A3 Improper/Outdated Generation Rule: High 13・Low 4・No Impact 1(72.2% 高影響)。 - A4 Transient/Toggling Alerts: High 7・Low 10・No Impact 1(94.4% 影響あり)。 - A5 Repeating Alerts: High 7・Low 10・No Impact 1(94.4% 影響あり)。 - A6 Cascading Alerts: High 14・Low 4・No Impact 0(全員が影響を認識)。 - **SOP の有用性**(Figure 2(b)、Helpful/Limited Help/Not Helpful 計 18 票): - Q1 Overall: Helpful 4・Limited Help 14。 - Q2 Individual: Helpful 9・Limited Help 7・Not Helpful 2。 - Q3 Collective: Helpful 5・Limited Help 13。 - **対処の有効性**(Figure 2(c)、Effective/Limited Effect/Not Effective 計 18 票): - R1 Alert Blocking: Effective 18(全員)。 - R2 Alert Aggregation: Effective 16・Limited 2。 - R3 Alert Correlation Analysis: Effective 18(全員)。 - R4 Emerging Alert Detection: Effective 13・Limited 3・Not Effective 2。 - **ケーススタディ**: 7:00 AM-11:59 AM に発生した代表ストームで 2751 件のアラート、有効戦略数 200。HAProxy 系の WARNING アラートが各時間で全体の約 30% を占める repeating パターンと、ブロックストレージ→データベースの cascading パターンの双方を観察。 ## 考察 - **finding 1**: 個別・集合の両アンチパターンが広く存在し、診断を阻害する。 - **finding 2**: SOP は処理を助けるが限界があり、特に集合アンチパターンには弱い。 - **finding 3**: 現行 4 対処は有効と評価されるが設定にドメイン知識を要する。 - **finding 4**: 予防ガイドラインは慎重に設計し厳守されれば効果があるが、実務では遵守されない。 - アンチパターンの「自動検知」を Avoidance(設計時)と Reaction(運用時)の中間層に位置づけ(Figure 6)、QoA 自動評価で機械学習が OCE の知識を吸収する将来像を示す。 ## 強み - 産業用クラウドの 2 年分・400 万件超の本番データに基づく初の大規模経験的研究で、外部研究者には到達しにくい現場の対処パターンを定量・定性両面で抽出した。 - Repeating Alerts という新規の集合アンチパターンを同定し、Cascading Alerts(Zhao+ 2020)と組で集合アンチパターンの輪郭を明確にした。 - 「対処(reaction)」と「予防(avoidance)」を区別したうえで、両者をつなぐ「自動検知」層を Future Direction に明示し、後続研究の枠組みを与えた。 ## 弱点・課題 - 単一事業者([[Huawei Cloud]])の経験を一般化しており、他クラウド事業者の運用差を直接比較しない。Microsoft 系の「全アラートを incident として扱う」設計([[アラート管理]] 横断的知見の Microsoft 設計参照)との比較は本論文の射程外。 - QoA(indicativeness・precision・handleability)の自動評価は提案にとどまり、具体アルゴリズム・ベンチマーク・ラベル付与プロトコルは未提示。 - 集合アンチパターンの自動検知に LDA を用いる R4 Emerging Alert Detection は、Not Effective を含む評価がばらつく(Effective 13・Limited 3・Not Effective 2)。 - 経験的研究の性格上、6 アンチパターンが網羅的であるとは主張していない(2 OCE → 3 OCE の二段階レビューで採用したものに限定)。