@2024__ISSRE__Exploring Hierarchical Patterns for Alert Aggregation in Supercomputers

# Exploring Hierarchical Patterns for Alert Aggregation in Supercomputers > [!abstract] 概要 > 大規模ハードウェアで構築された高性能コンピュータシステムは、信頼性保守の過程で毎日膨大なハードウェアアラートを生成する。代表的なスーパーコンピュータシステムを対象に探索的研究を行い、本研究ではまずスーパーコンピュータのアラートがオペレータにとって連続的なバーストの過負荷(alert overload)であることを特徴づける。しかし、インバンドのテキストアラートに対して調整された既存の類似度ベース集約手法は、スーパーコンピュータの文脈における意味論を考慮せず、類似しない代表アラートを選ぶという近視眼的な動作に陥る。このギャップを埋めるため、本研究は SuperAgg フレームワークを提案する。SuperAgg は現実世界のアラートの階層的パターンを抽出し、オンラインアラート管理に活用する。SuperAgg は時系列の教師なし状態検知と専門家分析を統合して、センサ層のアラートパターン 4 カテゴリを発見することに成功し、センサ間の主従統計関係からシステム層の相関パターンを抽出する。抽出した知識を用いて SuperAgg はオンラインでパターンを識別し、時空間複合戦略でアラートの流入を削減する。本番スーパーコンピュータのアラートを用いた評価では、SuperAgg は集約率 98% 超を達成し、3 ベースラインと比較して集約精度を大幅に上回る(異なるデータセットで 83.8% 超・43.2% 超)。本番展開によって、システムオペレータの観点からも有効性が実証された。ソースコードは https://github.com/Txh-User/SuperAgg で公開している。 ## 論文情報 - **タイトル**: Exploring Hierarchical Patterns for Alert Aggregation in Supercomputers - **著者**: Yuan Yuan, Tongqing Zhou, Xiuhong Tan, Yongqian Sun, Yuqi Li, Zhixing Li, Zhiping Cai, Tiejun Li - **所属**: - [[National University of Defense Technology]](NUDT) — Yuan Yuan, Tongqing Zhou, Yuqi Li, Zhixing Li, Zhiping Cai, Tiejun Li - [[Changsha University of Science and Technology]] — Xiuhong Tan - [[Nankai University]] — Yongqian Sun - [[National Supercomputer Center in Tianjin]] — Yuqi Li(兼務) - **媒体**: ISSRE 2024(IEEE International Symposium on Software Reliability Engineering) - **発表年**: 2024 - **URL**: https://nkcs.iops.ai/wp-content/uploads/2024/10/ISSRE24_SuperAgg.pdf - **コード**: https://github.com/Txh-User/SuperAgg ## 概要スーパーコンピュータの本番運用では 1 日あたり数万件のハードウェアアラートが発生しており、既存の類似度ベース集約では対応できない。本論文は、センサ層の継続的バーストとシステム層(センサ間)の空間相関という 2 層の階層構造に着目し、オフラインパターン学習とオンライン集約を組み合わせた SuperAgg フレームワークを提案する。NG-Tianhe スーパーコンピュータの 130 日分・合計 370 万件超のアラートで評価し、集約率 98% 超・精度でベースラインを大幅に上回ることを実証した。 ## 問題設定 **対象システム**: 天河(Tianhe)HPC シリーズ。各ボードに 200 以上のセンサを搭載し、温度・電圧・電流・湿度等を監視。アラートは BMU(Board Management Unit) → CMU(Chassis Management Unit) → SMU(System Management Unit) → オペレータフロントエンドの 4 段階で報告される。 **アラートの構造**: アウトオブバンドアラートは構造化データ(センサ ID・ボード名・IP・LF・センサ値・アラートタイプ・タイムスタンプ)を持ち、NC(Non-Critical)・CR(Critical)・NR(Non-Recoverable)の 3 レベルがある(表I)。 **alert overload の発見**: NG-Tianhe システム(4K ボード、130 日間)で 366 万件超の生アラートを収集(§III-C)。 - ブラックリスト抑制後でも 10 分あたり 200 件以上のアラートが 50% の観測時刻で発生(図2b) - 1 日あたり 1 万件以上が 100% の日で発生し、40% の日は 2.5 万件超(図2a) - 18 名のオペレータアンケート:10 分で 10 件を処理できるのは 66.67% のみ、平均 2.11 時間/日を重要アラート対処に費やす **既存手法の限界**: 類似度ベース手法(Jaccard 距離・トポロジ距離・時間距離)は、アラートレベルが有限の離散値であるためランダム選択に退化する(図1)。構造化アウトオブバンドアラートの意味論を無視するため「センサが連続バーストする」「異なるセンサが類似トレンドを示す」という本質的な冗長性を除去できない。 **Figure 3: 事例** ![[_attachments/2024__ISSRE__SuperAgg/fig3-case-study.png]] (Figure 3. Illustrative examples of the continuous bursts of sensor-tier alerts and spatial correlation among system-tier alerts. T に関する事例を示す。) ## 提案手法 ### アーキテクチャ概要 SuperAgg は**オフライン学習**と**オンライン集約**の 2 ステージで動作する(図4)。 - **オフライン学習**: (1) センサ層アラートパターンモデリング、(2) システム層相関パターンモデリング - **オンライン集約**: (1) 戦略ベース集約(センサ内チャネル)、(2) 空間ベース集約(センサ間クロスチャネル) ### アラート前処理生アラートエントリを `AL^t_i = {0, 1, 2, 3}`(アラートなし・NC・CR・NR)の時系列に変換する。温度上昇で NC→CR→NR が連続発令される「アラートチェーン」は、時刻差 Δt(実験では 1 秒)以内に上位レベルアラートが来た場合に低位レベルを除去するフィルタで削減する(式1)。 ### センサ層アラートパターンモデリング(§IV-C) ラベル付けが困難なため、教師なしの **Time2State** 手法(コントラスト学習)を拡張して適用する。 1. **パターン検知**: 対照学習でアラート時系列のエンコーダを学習。同一パターンの近傍部分系列を引き寄せ、ランダムサンプルの系列を押し離す損失関数(式2・3)を用いる。スーパーコンピュータのサンプリング窓は 1 時間以内に制限。130 日分で 7 パターンを自動検出。 2. **ヒューマンインザループモデリング**: オペレータグループが 7 パターンを解釈し、4 カテゴリに分類: | パターン | 意味 | 冗長性 | |---|---|---| | **stable** | 長期間安定(変動回数 ≤1、継続時間 ≫δ) | なし(正常) | | **fake(issuing/dismissing)** | 製造欠陥によるスパイク状瞬間変動(開始・終了時レベルが同一) | あり | | **wandering(up/down)** | 閾値近傍の揺らぎ末にレベル遷移(開始・終了時レベルが異なる) | あり | | **jittering(up/down)** | ワークロード負荷で継続的な波状変動(spike より長時間) | あり | ### システム層相関パターンモデリング(§IV-D) 方向付き Apriori 法でセンサ間の主従関係ルールを採掘する。10 分ウィンドウ内に先行アラートと後続アラートが共起する場合、後続を二次アラートとして管理する。信頼度閾値(推奨 conf=70%、support=0.04%)で精選したルールリスト R を構築。130 日分で 45 秒で生成可能。 ### オンライン集約(§IV-E) **センサ層集約(戦略ベース)**: - **silent awaiting(無音待機)**: Δt(≒10 秒)以内に連続するアラートレベル切換が来た場合、変動が収束するまで報告を保留し、Fake なら無報告、Wandering なら最終レベルを報告 - **see&suppression(観察抑制)**: Jittering パターン確認後 n=6 回の波を記録し、独立 t 検定でどちらのレベルを抑制するか決定 **システム層集約(空間ベース)**: ルール R に従い、先行/一次アラートが存在するウィンドウ内の二次アラートを抑制する。 ### 実装 Python 実装、CMU サーバ(16GB メモリ)で動作。オフライン学習(270 秒)+システム層ルール生成(45 秒)は本番稼働に影響しない。オンラインの δ=10 秒遅延は Azure Alerts の約 1 分発報に対して許容範囲。 **Figure 1: ワークフロー** ![[_attachments/2024__ISSRE__SuperAgg/fig1-workflow.png]] (Figure 1. processing results of different alert aggregation methods on an example alert time series. The values in the y-axis indi に関する処理フローを示す。) **Figure 4: フレームワーク** ![[_attachments/2024__ISSRE__SuperAgg/fig4-framework.png]] (Figure 4. SuperAgg, wherein two examples of alert time series are provided to illustrate online aggregation の全体フレームワークを示す。) **Figure 11: 図** ![[_attachments/2024__ISSRE__SuperAgg/fig11-figure.png]] (Figure 11. Alert aggregation of the fake and wandering patterns based on the silent awaiting strategy を示す。) **Figure 2: 図** ![[_attachments/2024__ISSRE__SuperAgg/fig2-figure.png]] (Figure 2. Illustration of the continuous stream of alerts を示す。) ## 新規性 1. **「アラート過負荷(alert overload)」の初の定式化**: スーパーコンピュータのアラートが単発のストームではなく連続バーストであるという問題を初めて特定・命名した 2. **階層的パターン抽出**: センサ層(単一チャネル内の意味論的パターン)とシステム層(クロスセンサの空間相関)を階層で同時に扱う初の設計 3. **教師なし学習+専門家知識の軽量融合**: ラベルなしで 7 パターンを自動検出し、専門家は少量の解釈作業(ワンパスの一回限り)で 4 カテゴリに整理するだけで済む設計 **既存手法との対比**: 類似度ベース(Jaccard 距離・DBSCAN・ウィンドウ類似度)は (1) アラートレベルの離散性でランダム選択に退化し、(2) 意味的冗長性(fake/wandering/jittering)を無視し、(3) センサ間空間相関を活用しない。SuperAgg は(1)(2)(3)すべてを明示的に設計で解決する。 ## 実験設定 - **データセット**: NG-Tianhe スーパーコンピュータ(4K ボード、130 日間)を大規模オーバーホールの有無で 2 分割 - データセット A: 2023/01/28〜03/31、155 万件、センチネル 607 件 - データセット B: 2023/04/01〜06/06、212 万件、センチネル 558 件 - **センチネルアラート**: ラベルなし問題の代替として、オペレータが重要センサ・コンテキストイベントを参照して手動で選定した 1,165 件。集約精度評価の基準とする - **比較対象**: - Rule-based: NC ≤400、CR ≤200、NR ≤20 の上限制約 - Clustering-based: センサ位置・アラートレベルを特徴量に DBSCAN(ε=0.05、minpoints=50) - Window-based: 類似度閾値 0.97・ウィンドウ 10 分での重複抑制 - **評価指標**: 集約率(削減比率 %)、集約精度(センチネルアラートの保護率 %)、処理時間コスト ## 実験結果 ### 集約率(表III) | 手法 | データセット A | データセット B | |---|---|---| | Rule-based | 97.10% | 97.74% | | Clustering-based | 97.77% | 94.81% | | Window-based | 97.87% | 97.33% | | **SuperAgg** | **99.04%** | **98.64%** | ### 集約精度(図10) | 手法 | データセット A | データセット B | |---|---|---| | Rule-based | 15.32% | 2.74% | | Clustering-based | 15.34% | 52.60% | | Window-based | 3.30% | 42.89% | | **SuperAgg** | **99.18%** | **95.88%** | SuperAgg は集約率で全ベースラインを上回り、集約精度では少なくとも 83.8%(データセット A)・43.2%(データセット B)の大差をつける。 ### アブレーション(表IV) センサ層集約単独で集約率 98.88%/98.33%、精度 100%/100%(センチネルを全保護)を達成。システム層集約を加えると集約率がさらに 0.2% 向上し、相対改善 15%/19%(60〜100 件/日の追加削減)を実現。システム層独立(w/o センサ層)は集約率 8.85%/21.79%、精度 20%/41.33% に留まり、センサ層が支配的な貢献者であることを示す。 ### 処理時間 SuperAgg のオンライン遅延は δ=10 秒。Clustering-based の平均 281 秒・最大 345 秒と比較して大幅に短い。Rule-based・Window-based は O(1) とほぼ同等の応答性。 ### 定性評価本番スーパーコンピュータで 5 日間の試験運用。オペレータ #1・#3 は「重要な兆候を見逃さずにアラート音を減らせることが素晴らしい」と報告。オペレータ #2 は集約前後のアラート比較可視化(運用知識ベースの構築)を提案。 ## 考察 **設計の意義**: 集約による軽微な抑制ミス(精度 100% 未満)は許容できる。集約なしではオペレータが全アラートを時間内に処理できず、重要なアラートをより多く見落とす現実があるため。誤抑制されたアラートはデータベース上に保存されており、障害後の調査で参照可能。 **スケーラビリティ**: 教師なし・解釈可能な設計により、異なるスーパーコンピュータや HPC/データセンターのアウトオブバンド監視にも適用可能と著者は述べる。 **限界(§VI-B1)**: - 正解ラベルの欠如: センチネルは理想アラート集合のサブセットであり、完全な精度評価は困難 - アラートデータのスケーラブルなアノテーションツールが欠如 - システムログをコンテキスト知識として活用するアラート優先度付けは未実装 **示唆(§VI-B2)**: オペレータに提供する情報量は「絶対的な完全性」よりも「処理可能な適量」が有利である。専門家知識を軽量に取り込むことが、大規模データの意味論的理解に大きく貢献する。 ## 強み / 弱点・課題 **強み**: - スーパーコンピュータという極限環境(数百万件/月)での本番評価と運用実証 - 類似度ベース手法の本質的な限界(離散アラートレベル問題)を明確に定式化 - 教師なし学習+軽量専門家介入のバランスが実用的 - アウトオブバンド(構造化ハードウェアアラート)という独自ドメインへの初の体系的アプローチ - センサ層精度 100%(センチネル全保護)という設計品質 **弱点・課題**: - 単一スーパーコンピュータ(NG-Tianhe)のみでの評価:他 HPC システムへの汎化は未検証 - システム層集約のアクチュエーション改善が 0.2% と小さく、精度コスト(1〜4%)を正当化するには定性的な説明に依存 - オフラインパターン学習の更新タイミングが明確でない(新ワークロードで新パターンが出現した場合の対応) - 公開データセットが存在せず、再現性の検証が困難(著者もコミュニティへの適用を呼びかける) ## 関連 - 概念: [[アラート集約]](既存概念ページ)、[[アラート管理]] - 比較: [[COLA]](ICSE-SEIP 2024 — クラウドのインバンドアラートに対するハイブリッド LLM 集約) - 所属: [[National University of Defense Technology]] / [[Nankai University]] / [[National Supercomputer Center in Tianjin]] - 著者: [[Yuan Yuan]] / [[Tongqing Zhou]] / [[Yongqian Sun]]