# UniDiag [[Nankai University]] の [[Shenglin Zhang]]・[[Yongqian Sun]] グループと [[Tsinghua University]] の [[Dan Pei]] が共同で提案したマイクロサービス障害診断フレームワーク(IEEE TSC 2024)。正式論文タイトルは「No More Data Silos: Unified Microservice Failure Diagnosis With Temporal Knowledge Graph」。(Source: [[@2024__TSC__No More Data Silos - Unified Microservice Failure Diagnosis With Temporal Knowledge Graph]]) ## システム構成 **中核アイデア**: 単一モダリティ手法の限界(メトリクスの過敏性・ログの知識依存性・トレースのインスタンス内部不可視性)をマルチモーダル統合で克服する。既存の融合手法が「浅い統合」にとどまるのに対し、時系列知識グラフ(TKG)による「深い統合」を実現する。 **3 ステップのオフライン訓練**: 1. **マルチモーダル TKG 構築**: 3σ ルールによるストリームベース異常検知で時系列を事象に変換し、四つ組 `(h, r, t, τ)` 形式の TKG を構築 2. **MOGE(マイクロサービス指向グラフ埋め込み)**: R-GCN(構造依存性) + GRU(時系列依存性) + SOPOOL(二次統計グラフ表現) の組み合わせ 3. **障害診断**: HAC によるクラスタリングで障害種別を分類 **オンライン診断**: 新規ウィンドウのデータを 0.6 秒以内でグラフ埋め込みに変換し、最近傍クラスタに分類。未知障害種別には新クラスタを自動生成しオペレータが追加ラベリング。 ## 性能 - D1 (GAIA/CloudWise): Weighted Average F1 = 0.869(最良ベースライン比 +0.117) - D2 (E コマース模擬): Weighted Average F1 = 0.723(最良ベースライン比 +0.04) - オンライン診断: 平均 0.6 秒(大規模 2,553 エンティティ・3.8M エッジで 4.73 秒) ## コード https://github.com/AIOps-Lab-NKU/UniDiag ## 関連 - ソース: [[@2024__TSC__No More Data Silos - Unified Microservice Failure Diagnosis With Temporal Knowledge Graph]] - 著者: [[Shenglin Zhang]] / [[Yongqian Sun]] / [[Yongxin Zhao]] / [[Dan Pei]] / [[Nankai University]] - 概念: [[マルチモーダル障害診断]] / [[時系列知識グラフ]] / [[グラフニューラルネットワーク]] / [[異常検知]]