# GrayScope サーバ OS でのグレイ障害(gray failure)に対して非侵入的にメトリクスデータから根本原因を箇所特定し、伝播経路を推論するフレームワーク。[[Nankai University]] の [[Shenglin Zhang]]・[[Yongqian Sun]] グループと [[Huawei Technologies]] の産学連携で開発され、FSE 2024 Industry Track で発表された(DOI: 10.1145/3663529.3663834)。コードは gitee.com/milohaha/grayscope で公開済み。 ## 構成 1. **データ収集と異常検知**: gala-gopher(eBPF)でメトリクス収集 + gala-anteater で KPI 異常検知 2. **因果グラフ学習**: 専門家知識による骨格グラフ(メタメトリクス間の既知因果関係) + Granger 因果性検定 → メトリクス因果グラフ 3. **根本原因推論**: 部分相関係数と異常度を遷移確率とするランダムウォーク 4. **伝播経路推論**: 累積異常スコア最大の最短経路(Dijkstra 変形) ## 性能 - AC@5 = 90%、Avg@5 = 82%(1241 件の注入障害実験) - 伝播経路解釈性精度 = 81.5%(200 件評価) - Huawei Cloud に 4 か月本番展開 ## 関連 - 論文: [[@2024__FSE__Illuminating the Gray Zone - Non-Intrusive Gray Failure Localization in Server Operating Systems]] - 開発者: [[Shenglin Zhang]] / [[Yongqian Sun]] / [[Dan Pei]] - 概念: [[グレイ障害]] / [[因果発見]] / [[非侵入プロファイリング]] / [[因果推論ベースRCA]]