アラート集約 - yuuk1's Digital Garden

# アラート集約 ## 定義アラート集約(Alert Aggregation)は、システム障害がトリガする「アラートストーム」——数百〜数千の相関アラート——を、同一根本原因を共有するクラスタにまとめてオンコールエンジニア(OCE)へ呈示する技術。アラートストームの起因は単一/少数の根本原因に遡れるはずだが、規模ゆえに手作業の集約は実行不可能で、自動化が決定的に重要である。集約は (1) 意味類似度ベース(AlertStorm・LiDAR・OAS など、NLP で文意の近いアラートを束ねる)、(2) 統計手法(Warden・LiDAR・iPACK など、共起パターンを学習する)、(3) ハイブリッド手法(本研究 COLA がパイオニア。SOP/SOP 由来の外部知識を LLM で扱い、統計と組み合わせる)の 3 系統に大別される。(Source: [[@2024__ICSE-SEIP__Knowledge-aware Alert Aggregation in Large-scale Cloud Systems - a Hybrid Approach]]) [[@2022__DSN__Characterizing and Mitigating Anti-patterns of Alerts in Industrial Cloud Systems|Yang+ DSN2022]] が示した 4 対処(R1 Blocking / R2 Aggregation / R3 Correlation Analysis / R4 Emerging Detection)のうち R2 Aggregation がこのカテゴリに該当し、Repeating Alerts と Cascading Alerts の双方を縮約する役割を担う。 ## 横断的知見 - **「LLM の役割」は集約器内で 3 つに分化している(2024-2025 の収束)**: 同じ「LLM × アラート集約」でも LLM の責務が大きく異なる。(1) [[@2024__ICSE-SEIP__Knowledge-aware Alert Aggregation in Large-scale Cloud Systems - a Hybrid Approach|COLA(Kuang+ 2024)]] は **SOP 解読器**として LLM を使う(SOP の長文知識から因果ルールを抽出)。(2) [[@2024__Electronics__Leveraging Large Language Models for Efficient Alert Aggregation in AIOPs|Zha+ 2024]] は **Service Dependency Graph (SDG) マッパー**として LLM を使う(クラスタ要約を SDG ノードに割り当て、弱連結成分で集約)。(3) [[@2025__FASE__VOCE - A Virtual On-Call Engineer for Automated Alert Incident Analysis Using a Large Language Model|VOCE(Chen+ FASE2025)]] は **多因子分析器 + 因果関係推論器**として LLM を使う(system layer / impact scope / severity の 3 因子抽出と、source 間 causality mining)。同じ "LLM × Alert" でも入力する外部知識(SOP vs SDG vs system topology)と LLM への問いの粒度(分類/要約 vs マッピング vs 多段論理推論)が大きく分かれる。ハイブリッド設計はどの外部知識が available かで決まる。(Source: [[@2024__ICSE-SEIP__Knowledge-aware Alert Aggregation in Large-scale Cloud Systems - a Hybrid Approach]], [[@2024__Electronics__Leveraging Large Language Models for Efficient Alert Aggregation in AIOPs]], [[@2025__FASE__VOCE - A Virtual On-Call Engineer for Automated Alert Incident Analysis Using a Large Language Model]]) - **「LLM 採用 vs 不採用」の境界は failure の severity・規模で引かれる**: [[@2025__SIGCOMM__SkyNet - Analyzing Alert Flooding from Severe Network Failures in Large Cloud Infrastructures|SkyNet(SIGCOMM 2025)]] は Alibaba Cloud 本番(89 DC × 10⁵ デバイス)規模で LLM を**意図的に採用しない**設計を選び、その根拠を §2.3 で明文化した: (a) Syslog 約 10M エントリ/15min が既存 LLM の max 20M トークン context をリアルタイム超過、(b) hallucination のブラックボックス性が severe failure 対応の運用上許容できない、(c) 後付け統合(SkyNet 出力を LLM 入力に渡す)は許容。一方 Zha+ 2024 と VOCE は cloud service スケール(数万アラート、1 incident あたり 12.91 alerts)で LLM を採用しても context が破綻しないため、LLM ハイブリッドが成立する。スケールと severity 要件が LLM 採用境界を分け、SkyNet は「LLM 出力に依存しない」設計と heuristic SOP の併用で 1.5 年運用に耐える false negative = 0% を達成した。(Source: [[@2025__SIGCOMM__SkyNet - Analyzing Alert Flooding from Severe Network Failures in Large Cloud Infrastructures]] §2.3, §5, §6, [[@2024__Electronics__Leveraging Large Language Models for Efficient Alert Aggregation in AIOPs]], [[@2025__FASE__VOCE - A Virtual On-Call Engineer for Automated Alert Incident Analysis Using a Large Language Model]]) - **集約の階層化が場面ごとに異なる(時間 → 空間 → 因果という共通形状の中身が分化)**: 集約の階層構造は 3 論文で類似形を取るが、各段の中身が異なる。Zha+ 2024 は **時間(τ=15min)→ 空間+テキスト(node2vec+SBERT、ハイブリッド類似度)→ 因果(LLM × SDG 弱連結成分)**(§3.2)。SkyNet は **時間(timeout 5-15min)→ location 階層(Region/City/Logic Site/Site/Device/Cluster の 6 階層)→ 因果(自動 SOP / human による mitigation)**(§4.2)。VOCE は **alert linking(他研究に委譲)→ source 内 LLM 分析 → 隣接 source 間 LLM 分析 → 全体 causality + statistical correction → eigenvector centrality**(§4)。共通する「時間 → 空間 → 因果」の 3 段は構造として安定だが、空間表現(埋め込みベクトル vs 階層的 location tree vs system topology hierarchy)と因果モデル(LLM-driven graph traversal vs SOP rule + manual vs LLM dialog + eigenvector)はドメインで異なる。(Source: [[@2024__Electronics__Leveraging Large Language Models for Efficient Alert Aggregation in AIOPs]] §3.2, [[@2025__SIGCOMM__SkyNet - Analyzing Alert Flooding from Severe Network Failures in Large Cloud Infrastructures]] §4, [[@2025__FASE__VOCE - A Virtual On-Call Engineer for Automated Alert Incident Analysis Using a Large Language Model]] §4) - **「時間順は原因 alert を反映しない」発見が複数論文で独立に観察**: 時系列ベースの RCA([[アラート]] 系の eWarn[53] 等)が暗黙に置く「最初に発火した alert = 根本原因」仮定が、複数論文で実データから否定された。VOCE([[@2025__FASE__VOCE - A Virtual On-Call Engineer for Automated Alert Incident Analysis Using a Large Language Model|Chen+ 2025]] Table 2)は Company A 827 incidents で「originating alert が時間順最初である割合 = 45.34%」と測定。SkyNet([[@2025__SIGCOMM__SkyNet - Analyzing Alert Flooding from Severe Network Failures in Large Cloud Infrastructures|Yang+ 2025]] §7.3)は「unbalanced hash + device hardware error が原因の障害で BGP link break が先に発火し、Syslog hardware error が数分遅れる」事例を報告。両者から、時系列順序より system layer / impact scope / severity / location 階層といった構造的特徴を判定軸にすべきという設計圧力が独立に同方向で示された。(Source: [[@2025__FASE__VOCE - A Virtual On-Call Engineer for Automated Alert Incident Analysis Using a Large Language Model]] §3.2 Table 2, [[@2025__SIGCOMM__SkyNet - Analyzing Alert Flooding from Severe Network Failures in Large Cloud Infrastructures]] §7.3) - **「意味類似度 vs 統計 vs ハイブリッド」の 3 系統対立は、頻度分布と semantic dispersion の交差で決まる**: 既存研究は意味類似度系(AlertStorm・LiDAR・OAS)と統計系(Warden・iPACK)に分かれ、それぞれに弱点を抱える——意味類似度系は因果ロジックを見落とし(server overload と DB slowdown は semantic 距離が大きいが因果連鎖を持つ)、統計系は履歴の少ない rare alert(SSD voltage 低下・OSD process exception など重大度の高いアラートほど低頻度)を扱えない。COLA はこのトレードオフを「高頻度ペアは統計で処理、低頻度・semantic 不一致のペアは LLM が SOP の domain knowledge で因果推論」というハイブリッド分業で同時に解消した。これは Yang+ DSN2022 が R2 Aggregation を 16/18 OCE で Effective、R3 Correlation Analysis を 18/18 OCE で Effective と評価した「両者に強みがある」という事実の理論的裏付けで、両者を独立に使うのではなくフィルタとして直列に並べる設計が解になる。(Source: [[@2024__ICSE-SEIP__Knowledge-aware Alert Aggregation in Large-scale Cloud Systems - a Hybrid Approach]], [[@2022__DSN__Characterizing and Mitigating Anti-patterns of Alerts in Industrial Cloud Systems]]) - **アラート集約とインシデント集約は別系統に分かれ、テキストの構造性で手法選択が決まる**: [[@2014__KDD__Unveiling Clusters of Events for Alert and Incident Management in Large-Scale Enterprise IT|Lin+ KDD2014]] は同一エンタープライズの 5M アラートと 67k インシデントを並走させたとき、半構造化アラートには Jaccard + connected components + graph-cut が有効で、非構造化インシデントには NMF + KD-tree + complete-linkage が必要だと示した。同じテキストでも「機械生成で形式に従う」アラートと「人手記述で長さ・形式が自由」なインシデントでは、距離指標(交差ベース)と次元縮約(NMF)の必要性が異なる。COLA はこの観点で「アラート」を扱うが、SOP は人手記述の長文という点でインシデント寄りであり、Lin+ 2014 が非構造化テキスト向けに NMF を採用した必然と、Kuang+ 2024 が LLM で長文 SOP を要約・推論する必然は同根。一方、Yang+ DSN2022 が報告した SOP の有用性「Helpful 22.2% vs Limited Help 77.8%」は、Lin+ 2014 の「インシデント記述は同事象でも長さが大きく変動」(Figure 8 同じパスワード問題が短文/詳細文の 2 形)と同質の課題であり、SOP/インシデントの非構造性を機械処理する研究系列が長期的に必要であることを示す。(Source: [[@2014__KDD__Unveiling Clusters of Events for Alert and Incident Management in Large-Scale Enterprise IT]], [[@2024__ICSE-SEIP__Knowledge-aware Alert Aggregation in Large-scale Cloud Systems - a Hybrid Approach]], [[@2022__DSN__Characterizing and Mitigating Anti-patterns of Alerts in Industrial Cloud Systems]]) - **リンガバッファ + アソシエーションルールマイニング（Baidu 2017）は、属性ベース集約と統計ベース集約の原始的組合せ**: [[@2017__SREcon17 Asia__Draining the Flood - A Combat against Alert Fatigue|Chen SREcon17 Asia]] は、Baidu の [[Argus (Baidu)|Argus]] で 3 層の集約を報告した。(1) デプロイ構造（ルール名・モジュール・クラスタ・インスタンス）による属性ベースのシンプルグルーピング + リンガバッファでの時間窓内一括配信、(2) Caller/Callee 関係のアソシエーションルールマイニング（トランザクションウィンドウ内の共起から `M:ruleX → N:ruleY` を学習）によるクロスモジュール相関、(3) $\text{score} = \sqrt{(\text{alerting rules}/\text{total rules}) \times (\text{alerting products}/\text{total products})}$ のヒューリスティックによるネットワーク接続性検知。(1) は COLA や OAS が自動化する前の手動定義属性ベース集約、(2) は DyAlert のグラフ表現学習やAlertRCA の因果グラフが高度化する前のルールマイニングベースの相関分析である。4 施策全体で 85% 削減を達成しており、集約単独の寄与は切り分けられていないが、重複率 58% のうちの大部分がグルーピングで吸収されたと推定される。特にリンガバッファの設計は、リンガタイム（待機時間）を短くすると即時性は上がるが集約効果は下がるトレードオフを含み、Chen は「より良いバランスの方法が必要」と課題を認識していた。(Source: [[@2017__SREcon17 Asia__Draining the Flood - A Combat against Alert Fatigue]]) - **「構造保存可視化」と「LLM 説明」は同じ問題の 10 年差ソリューション**: Lin+ KDD2014 は word cloud の「順序を失う」限界を (word, position) タプル可視化で解決し、OCE がクラスタの構造的代表を即読解できるようにした。10 年後の Kuang+ ICSE-SEIP2024 は LLM の自然言語説明文(Figure 8 の `Alert1 → Alert2` の因果説明)で OCE 受容を高めた。両者は「自動分類結果を OCE に呈示する形式」の問題で、当時の最良手段が異なるだけで本質は同じ——機械が出す集約結果を、人手が再解釈可能な形に翻訳する責務を集約システムが負うべき。OCE の自己報告(Lin+ 2014:「読みやすい」、Kuang+ 2024:「yes/no より解釈可能な根拠の方が受け入れやすい」)が一貫してこの設計圧力を示す。(Source: [[@2014__KDD__Unveiling Clusters of Events for Alert and Incident Management in Large-Scale Enterprise IT]], [[@2024__ICSE-SEIP__Knowledge-aware Alert Aggregation in Large-scale Cloud Systems - a Hybrid Approach]]) - **集約アルゴリズムは「ペア類似度」から「グラフ表現学習」へと世代交代している**: 第一世代 [[@2014__KDD__Unveiling Clusters of Events for Alert and Incident Management in Large-Scale Enterprise IT|Lin+ KDD2014]] と [[@2020__ICSE-SEIP__Understanding and Handling Alert Storm for Online Service Systems|Zhao+ ICSE-SEIP2020]] はペア類似度(Jaccard / 重み付きテキスト+トポロジ)からクラスタリング(graph-cut / DBSCAN)へ進む。第二世代 [[@2023__ASE__Dynamic Graph Neural Networks-Based Alert Link Prediction for Online Service Systems|Chen+ ASE2023 (DyAlert)]] と [[@2024__CCGRID__AlertRCA - Causality Enhanced Graph Representation Learning for Alert-Based Root Cause Analysis|Yu+ CCGRID2024 (AlertRCA)]] はアラートを動的グラフのノードと見て、k-GNN + GRU / CPGAT + DAGNN でリンクや原因を直接予測する。第一世代の限界は「離散時刻のスナップショット」で時間情報を捨ててしまうことで、第二世代は時間とグラフ構造を同時に表現できる。Chen+ 2023 のアブレーション(時系列情報のみで +5.6%、時系列を抜くと精度低下)はこの世代交代の必然性を示す。(Source: [[@2014__KDD__Unveiling Clusters of Events for Alert and Incident Management in Large-Scale Enterprise IT]], [[@2020__ICSE-SEIP__Understanding and Handling Alert Storm for Online Service Systems]], [[@2023__ASE__Dynamic Graph Neural Networks-Based Alert Link Prediction for Online Service Systems]], [[@2024__CCGRID__AlertRCA - Causality Enhanced Graph Representation Learning for Alert-Based Root Cause Analysis]]) - **GRLIA は「アラート集約」と「インシデント集約」の橋渡しになる中間世代である**: [[@2021__ASE__Graph-based Incident Aggregation for Large-Scale Online Service Systems|GRLIA(Chen+ ASE2021)]] は、Zhao+ 2020/UHAS の EVT によるバースト検知とトポロジ類似度を継承しつつ、テキスト類似度を捨て、KPI による障害影響グラフ補完 + DeepWalk/Word2Vec による incident type 表現学習へ移った。これは 2023 年以降の DyAlert/AlertRCA の「アラートをグラフ上の動的表現として扱う」流れより前に、インシデント側で「ペア類似度 → 表現学習」へ移った事例である。GRLIA のアブレーションでは影響グラフ補完を外すと NMI が 0.831/0.866/0.912 から 0.782/0.808/0.846 に落ち、トポロジをただ使うだけでなく**欠落した伝播範囲を KPI で補う**ことが集約精度の主要因であることを示す。(Source: [[@2021__ASE__Graph-based Incident Aggregation for Large-Scale Online Service Systems]], [[@2020__ICSE-SEIP__Understanding and Handling Alert Storm for Online Service Systems]], [[@2023__ASE__Dynamic Graph Neural Networks-Based Alert Link Prediction for Online Service Systems]]) - **HPC(スーパーコンピュータ)とクラウドサービスは「集約の正解形」が異なる**: クラウドサービス向け集約([[@2020__ICSE-SEIP__Understanding and Handling Alert Storm for Online Service Systems|Zhao+ 2020]]・[[@2024__ICSE-SEIP__Knowledge-aware Alert Aggregation in Large-scale Cloud Systems - a Hybrid Approach|Kuang+ 2024 (COLA)]]・[[@2023__ASE__Dynamic Graph Neural Networks-Based Alert Link Prediction for Online Service Systems|Chen+ 2023]])は「障害トリガで起きる断続的アラートストームを、根本原因クラスタへ畳む」設計を採る。一方 HPC 向け集約([[@2024__ISSRE__Exploring Hierarchical Patterns for Alert Aggregation in Supercomputers|Yuan+ ISSRE2024 (SuperAgg)]])は「持続的バーストの連続的流れから階層パターン(stable / fake / wandering / jittering 4 カテゴリ)を抽出 + システム層の主従関係を Apriori で採掘」する 2 段階階層構造を必要とする(§IV)。SuperAgg がベースライン比 83.8% / 43.2% の精度向上を達成したのは(§V-B)、HPC のアウトオブバンド構造化アラートに特化した階層構造を採用したから。クラウド向け手法の単純な適用が劣化することは Yuan+ 2024 の §II-A が明示する。詳細は [[アラートストーム]] 参照。(Source: [[@2024__ISSRE__Exploring Hierarchical Patterns for Alert Aggregation in Supercomputers]]) - **抑制(発火前)と集約(発火後)は別レイヤで補完関係**: [[@2024__ICSE-SEIP__Dynamic Alert Suppression Policy for Noise Reduction in AIOps|Bhukar+ 2024]] が示した動的アラート抑制(発火前にノイズを刈り取る)と、本概念の集約(発火後にクラスタに畳む)は介入点が異なる(発火前 vs 発火後)。同じ「OCE 認知負荷削減」を目標としつつ、抑制は誤発火を防ぎ、集約は真の発火群を整理する。両者を直列に並べると(抑制 → 残ったアラート → 集約 → クラスタ呈示)、集約器が処理すべき入力規模を 60% 以上削減できる可能性がある(Bhukar の TcpRetrans 事例: 61.53% ノイズ削減)。詳細は [[アラート抑制]] 参照。(Source: [[@2024__ICSE-SEIP__Dynamic Alert Suppression Policy for Noise Reduction in AIOps]]) - **Fudan アラート集約三部作 — semantic+behavior 教師あり → 動的グラフ → 教師なしトポロジセマンティクス**: 同一 Fudan グループ([[Jia Chen (Fudan)]]・[[Peng Wang (Fudan)]]・[[Wei Wang (Fudan)]])が 3 年スパンで連続的に進化させた 3 論文の系譜が確定。(1) [[@2022__ICSE__Online Summarizing Alerts through Semantic and Behavior Information|OAS(Chen+ ICSE2022)]]: 障害報告書ラベル + ASR(BERT)+ ABR(LSTM)+ ACT 統合の**教師あり深層学習**、CMDB 不要で意味的に異なる alert も同一障害として集約、2 商業銀行で Bank B ACR > 99%・VCR ≈ 54%。(2) [[@2023__ASE__Dynamic Graph Neural Networks-Based Alert Link Prediction for Online Service Systems|DyAlert(Chen+ ASE2023)]]: AMDG 動的グラフ + k-GNN + GRU で時空間伝播モデル化、F1 + 0.259、OAS を超える(Alibaba 85 BU)。(3) [[@2025__FSE__Alert Summarization for Online Service Systems by Validating Propagation Paths of Faults|ProAlert(Chen+ FSE2025)]]: 教師なしで歴史的アラート + CMDB トポロジから fault propagation patterns を DBSCAN 学習、validate by paths、S1 VCR 93.53%・SA 99.71%、推論 200+/1280+ alerts/sec。**進化の軸**は「ラベル要否(教師あり→教師なし)」「セマンティクスの位置(alert 内 semantic → 伝播パスの semantic)」「リアルタイム性(オフライン学習 → オンライン推論軽量化)」。同一研究室による 3 年連続の問題昇格は本領域では稀。(Source: [[@2022__ICSE__Online Summarizing Alerts through Semantic and Behavior Information]], [[@2023__ASE__Dynamic Graph Neural Networks-Based Alert Link Prediction for Online Service Systems]], [[@2025__FSE__Alert Summarization for Online Service Systems by Validating Propagation Paths of Faults]]) - **「トポロジの接続性 vs エッジのセマンティクス」という ProAlert の新軸**: DyAlert・LiDAR を含む既存のトポロジ依存集約は「接続性のみ」を見るが、ProAlert はエッジ(サービス間の依存)に**伝播のしやすさ**というセマンティクスを付与して fault path を validate する。「同じトポロジでも、ある障害は path A を通り別の障害は path B」を学習で区別。これは Yang+ Anti-patterns 2022 の Cascading Alerts(因果連鎖)の根本機序を学習で再構成する試みでもあり、`連結性 → セマンティクス` への軸シフトは、後続研究の重要な設計変数を提示した。(Source: [[@2025__FSE__Alert Summarization for Online Service Systems by Validating Propagation Paths of Faults]], [[@2023__ASE__Dynamic Graph Neural Networks-Based Alert Link Prediction for Online Service Systems]], [[@2022__DSN__Characterizing and Mitigating Anti-patterns of Alerts in Industrial Cloud Systems]]) - **NetBox 連携によるトポロジ属性タグ一致は、意味類似度・統計・LLM のいずれにも依らない第 4 の重複排除経路である**: [[@2026__JANOG58__ネットワーク監視の自動化はどこまでできるのか - Apache Airflowによるアラート対応基盤|LY Corporation の oyakata(JANOG58, 2026)]] は、NW 機器の対象インターフェースと [[NetBox]] から取得した対向ポート情報の双方に `{hostname}:{interface}` タグを自動付与し、タグが一致するアラートを重複とみなしてワークフロー起動自体をスキップする。これは Chen SREcon17 Asia の「デプロイ構造による属性ベースのシンプルグルーピング」に近い設計思想だが、対象を **構成管理データベース(NetBox)由来の物理トポロジ属性** に絞ることで、意味類似度計算や LLM 推論を一切用いずに重複判定を完結させる。COLA・Zha+ 2024・VOCE が「アラート発生後にどうクラスタ化して OCE に見せるか」を問うのに対し、oyakata は「ワークフロー起動前に重複を検知して起動自体を止める」という、起動判定の前段に集約ロジックを置く設計である点も異なる。(Source: [[@2026__JANOG58__ネットワーク監視の自動化はどこまでできるのか - Apache Airflowによるアラート対応基盤]] p.36-37, 42-48) ## 未解決の問い - **NetBox タグベースの属性一致による重複排除が、Cascading Alerts(因果連鎖だが物理トポロジ上は対向ポートに限らない)や、対向関係が NetBox に未登録の機器にどこまで対応できるか未検証**。oyakata の設計は「対向ポート」という単一の関係性に特化しており、COLA・SkyNet が扱う多段の因果連鎖(cascading)や広域の相関(correlation)をどこまでカバーできるかは JANOG58 発表内で言及されていない。(Source: [[@2026__JANOG58__ネットワーク監視の自動化はどこまでできるのか - Apache Airflowによるアラート対応基盤]] p.36-37) - **3 つの "LLM 役割"(SOP 解読 / SDG マッパー / 多因子分析)を同一データセット上で比較した実証研究は未着手**。COLA・Zha+ 2024・VOCE はそれぞれ別データセットで評価しており、SOP・SDG・system topology のどれが集約精度に最も寄与するか、複合させた場合に F1 がどう動くかは未解明。 - GRLIA のような KPI 補完型インシデント集約と、ProAlert のような fault propagation path 検証型アラート集約は統合できるか。前者は「沈黙ノード」を KPI でつなぎ、後者は「伝播しやすい辺」を履歴から検証する。両者を同一トポロジ上で合わせると、欠落ノードと欠落/過剰エッジを同時に扱えるか。(Source: [[@2021__ASE__Graph-based Incident Aggregation for Large-Scale Online Service Systems]], [[@2025__FSE__Alert Summarization for Online Service Systems by Validating Propagation Paths of Faults]]) - **「LLM 不採用 SkyNet」と「LLM 採用 Zha+ 2024 / VOCE」の境界が context window 20M トークンを超える次世代 LLM(Gemini 1.5 / Claude 3 / GPT-4.5+)でどう動くか**。SkyNet §2.3 の Syslog 10M/15min 制約は最新 LLM では超えないため、severe failure でも LLM 採用可能になりうる。再評価が必要。 - **Originating alert の判定基準(system layer / impact scope / severity)の汎用性**: VOCE は Company A 1 ヶ月 10,680 alerts で 93-95% を示したが、他のドメイン(電力業界 / data center network / 銀行系)で同様に成立するか? Zha+ 2024 のデータでは impact scope 概念が directly applicable か、SkyNet の Failure / Abnormal / Root cause 3 分類との対応関係は何か。 - **集約と incident analysis の境界**: VOCE 自体は「alert linking は他研究に委ねる」と明示し、Zha+ 2024 は集約までで根本原因分析は OCE に委ねる。SkyNet は location zoom-in で specific link/device まで絞るが root cause RCA は別系統。3 者の責務境界の設計選択は何が合理的か? - COLA の SOP 依存は強い前提だ。Yang+ DSN2022 では SOP 自体が「Helpful 22.2% vs Limited Help 77.8%」と評価されており、SOP の品質ばらつきが COLA の F1 へどう波及するかは未検証。SOP 整備度の低い事業者で COLA はどこまで F1 0.9 を保てるか。 - ハイブリッド設計の "高信頼ペア即決 + 不確実ペアを LLM" という方針で、「不確実」と判定された残数を absolutely バウンドする保証(SLO 的)は与えられていない。アラートストーム規模(数千)で LLM へのキューが膨れた場合の degradation 戦略(時間予算超過したら統計判定にフォールバック等)は未提示。 - 空間関係の寄与が F1 5.5% 改善にとどまる(temporal 39.3%・LLM 31.8% に対し)弱さは、トポロジ表現の素朴さに起因する。実時間のトポロジ(service mesh / OpenTelemetry の依存関係)を直接埋め込んだ場合の改善余地は未検証。 - 解釈可能性(LLM が説明文を返す)が OCE 受容を高めた、と定性報告されているが、説明の正確性(LLM の hallucination 率)は本研究で測定されていない。誤った因果関係を自信満々に説明されると逆効果になる可能性。 - アラート集約の評価指標が precision/recall/F1(ペアワイズ)に固定されている。クラスタ単位の「同一根本原因への結束力」「OCE が実際に短縮できる MTTR」といったタスク水準指標との対応はどうか。 - 動的グラフ表現学習([[@2023__ASE__Dynamic Graph Neural Networks-Based Alert Link Prediction for Online Service Systems|Chen+ 2023]])のオンライン適用は、AMDG の更新コストが高い。ストーム発生時にリアルタイム推論できる軽量化変種はあるか? - COLA(Kuang+ 2024)のハイブリッド分業と DyAlert(Chen+ 2023)のグラフ表現学習、SuperAgg(Yuan+ 2024)の階層パターンを同一データセットで比較した実証研究は未着手。3 系統の優劣はドメインに依存するという定性観察はあるが、定量比較がない。 - **Fudan 三部作のうち最新作 ProAlert は教師なし化に成功したが、伝播の方向(原因→症状)は推定できない**(本論文の限界として §10 で明記)。後続では fault propagation graph の有向化と RCA の自動統合が必要だが、現状の方向推定手法(eWarn 時系列・VOCE causality mining)とどう組み合わせるべきか未着手。 - **OAS の教師あり F1(VCR ≈ 54%)と ProAlert の教師なし(S1 VCR 93.53%)を素直に比較できるか?** 2 商業銀行(OAS)と異なる本番データ(ProAlert)で評価しているため、データセット差の影響をコントロールした再評価が必要。同一 dataset でのアブレーション(教師あり vs 教師なし)が Fudan 系列としても残課題。 - アラート集約の評価指標が precision/recall/F1(ペアワイズ)に固定されているが、ProAlert の SA(Summary Accuracy)指標と VOCE の Hierarchical Accuracy・SkyNet の severity rank 指標は同一概念か。クラスタリングタスク評価指標の集約系統横断比較が未整備。 ## 関連 - 親概念: [[アラート管理]](R2 Aggregation がこのカテゴリ) - 兄弟: [[アラートストーム]](集約の主要対象)、[[アラート抑制]](発火前介入)、[[アラートフィルタリング]]、[[アラートインシデント分析]](VOCE が導入する後段問題)、[[LLMによる根本原因分析]] - 関連手法: [[GRLIA]]、[[COLA]](Kuang+ ICSE-SEIP2024 提案)、AlertStorm(Zhao+ 2020)、DyAlert([[@2023__ASE__Dynamic Graph Neural Networks-Based Alert Link Prediction for Online Service Systems|Chen+ 2023]])、SuperAgg([[@2024__ISSRE__Exploring Hierarchical Patterns for Alert Aggregation in Supercomputers|Yuan+ 2024]])、AlertRCA(Yu+ 2024)、Zha+ Electronics2024、VOCE、SkyNet、LiDAR・OAS・iPACK、[[oyakata]](NetBox タグベースの起動前重複排除) - 関連エンティティ: [[NetBox]] / [[oyakata]] / [[Apache Airflow]] - 関連アンチパターン: [[アラートアンチパターン]] の A5 Repeating Alerts・A6 Cascading Alerts は集約対象 - ソース: [[@2024__ICSE-SEIP__Knowledge-aware Alert Aggregation in Large-scale Cloud Systems - a Hybrid Approach]]、[[@2022__DSN__Characterizing and Mitigating Anti-patterns of Alerts in Industrial Cloud Systems]]、[[@2021__ASE__Graph-based Incident Aggregation for Large-Scale Online Service Systems]]、[[@2020__ICSE-SEIP__Understanding and Handling Alert Storm for Online Service Systems]]、[[@2023__ASE__Dynamic Graph Neural Networks-Based Alert Link Prediction for Online Service Systems]]、[[@2024__ISSRE__Exploring Hierarchical Patterns for Alert Aggregation in Supercomputers]]、[[@2024__ICSE-SEIP__Dynamic Alert Suppression Policy for Noise Reduction in AIOps]]、[[@2014__KDD__Unveiling Clusters of Events for Alert and Incident Management in Large-Scale Enterprise IT]]、[[@2024__Electronics__Leveraging Large Language Models for Efficient Alert Aggregation in AIOPs]]、[[@2025__FASE__VOCE - A Virtual On-Call Engineer for Automated Alert Incident Analysis Using a Large Language Model]]、[[@2025__SIGCOMM__SkyNet - Analyzing Alert Flooding from Severe Network Failures in Large Cloud Infrastructures]] ## 出典 - [[@2024__ICSE-SEIP__Knowledge-aware Alert Aggregation in Large-scale Cloud Systems - a Hybrid Approach]] §1, §7。 - [[@2022__DSN__Characterizing and Mitigating Anti-patterns of Alerts in Industrial Cloud Systems]] §III.C(R2 Alert Aggregation)。 - [[@2020__ICSE-SEIP__Understanding and Handling Alert Storm for Online Service Systems]] §3-4(EVT 検知 + 4 段要約)。 - [[@2023__ASE__Dynamic Graph Neural Networks-Based Alert Link Prediction for Online Service Systems]] §III-IV(DyAlert/AMDG)。 - [[@2024__ISSRE__Exploring Hierarchical Patterns for Alert Aggregation in Supercomputers]] §IV-V(SuperAgg 2 段階階層)。 - [[@2024__ICSE-SEIP__Dynamic Alert Suppression Policy for Noise Reduction in AIOps]] §2, §4(動的抑制ポリシー)。 - [[@2026__JANOG58__ネットワーク監視の自動化はどこまでできるのか - Apache Airflowによるアラート対応基盤]] p.36-37, 42-48(NetBox 連携によるアラート重複排除)。