COLA - yuuk1's Digital Garden

# COLA ## 定義 COLA(COrrelation mining and LLM reasoning for online alert Aggregation)は、相関マイニングモジュールと LLM 推論モジュールを直列するハイブリッド型オンラインアラート集約フレームワークだ。前段の相関マイニングが時間関係(条件付確率 + Jaccard 除ノイズ)と空間関係(node2vec 風ランダムウォーク + skip-gram 埋め込み)で高信頼ペアを高速判定し、低信頼ペアのみを後段の LLM 推論モジュールへ送る。LLM はアラートに紐づく SOP(Standard Operating Procedure)を CoT 風 2 ラウンドプロンプティングで要約し、ICL(In-Context Learning)と P-tuning v2 による SFT で因果推論する。Cloud X(匿名化された [[Huawei Cloud]])の本番に 4 ヶ月運用された。(Source: [[@2024__ICSE-SEIP__Knowledge-aware Alert Aggregation in Large-scale Cloud Systems - a Hybrid Approach]]) ## 横断的知見 - (1 ソース目: Kuang+ ICSE-SEIP2024 のみ。他のハイブリッド集約手法を ingest した時点で追記する) ## 未解決の問い - α=3.5 のグリッド探索結果は Cloud X 固有の値か、それとも他事業者でも近い値に収束するか。事業者間で α を比較した経験報告はまだない。 - P-tuning v2 で fine-tune する内部 LLM のパラメータ規模は明示されていない(< 100B 程度と推察)。LLM 規模 vs F1 の関係(scaling law)は未検証。 - ICL のサンプル top-1 positive + top-1 negative の選択は LLM 入力長制限で決まったが、長文 LLM(Claude 3.5、GPT-4o など)では top-k を増やせる。サンプル数増加で ICL 単体性能が SFT に追いつくかは未検証。 - 産業経験で「解釈可能な根拠提示が OCE に受け入れられた」と報告されるが、LLM の説明が誤っている場合(hallucination)の影響評価は欠落。 ## 関連 - 親概念: [[アラート集約]] - 構成技術: [[Chain-of-Thought Prompting]](2 ラウンドプロンプティングの土台)、[[文脈内学習|In-Context Learning]](将来作成候補)、P-tuning v2(SFT 手法)、node2vec(空間関係埋め込み) - 同種・競合手法: AlertStorm(Zhao+ 2020、EVT 検知 + DBSCAN クラスタ)、LiDAR(Chen+ 2020、TextCNN + Skip-Gram)、OAS(Chen+ 2022、語頻度 + 行動パターン)、iPACK(Liu+ 2023、PMI + Kneedle 除ノイズ) - ソース: [[@2024__ICSE-SEIP__Knowledge-aware Alert Aggregation in Large-scale Cloud Systems - a Hybrid Approach]] ## 出典 - [[@2024__ICSE-SEIP__Knowledge-aware Alert Aggregation in Large-scale Cloud Systems - a Hybrid Approach]] §3-§5。