2024__ISSRE__Exploring Hierarchical Patterns for Alert Aggregation in Supercomputers

## Memo > As a remedy, we propose to put sentinels that shall not be removed during aggregation and use them for accuracy evaluation. Specifically, the operators managed to pick out 1165 cases of sentinel alerts by manually referring to explicit context events and critical sensors in design. ## Memo with LLM ## Abstract 大規模なハードウェアを基盤とした高い性能に加え、日々、より大規模なコンピュータシステムが信頼性維持のメンテナンス中に大量のハードウェアアラートを発生させている。代表的なスーパーコンピュータシステムに関する予備調査に基づき、本研究では、スーパーコンピュータのアラートはオペレーターにとって過負荷となる連続的なバーストであると特徴づけている。しかし、インバンドのテキスト形式のアラート用に調整された既存の類似性に基づく集約ソリューションは、スーパーコンピュータのコンテキストにおけるセマンティクスを考慮せずに、類似性のない代表例を見つけるという近視眼的なものである。スーパーコンピュータのアラート集約のギャップを埋めるため、私たちはSuperAggフレームワークを提案し、実世界の階層的パターンを抽出してオンラインアラート管理に活用する。SuperAggは、時系列の教師なし状態検出と専門家の分析を統合し、センサー階層のアラートパターンの4つのカテゴリーを効果的に発見し、システム階層相関パターンをセンサー間の一次および二次統計量から抽出する。このような抽出された知識により、SuperAggはオンラインでパターンを特定し、時空間を組み合わせた戦略を使用してアラートの流入を削減する。本番稼働中のスーパーコンピュータから生成されたアラートに対する評価では、SuperAggは3つのベースラインよりも98%以上の集約率と大幅に高い集約精度（異なるデータセットで83.8%以上、43.2%以上）を提供することが示された。本番環境への展開により、システム運用者の観点からもその有効性が実証された。ソースコードは、https://github.com/Txh-User/SuperAggで入手可能である。