# GrayScope
サーバ OS でのグレイ障害(gray failure)に対して非侵入的にメトリクスデータから根本原因を箇所特定し、伝播経路を推論するフレームワーク。[[Nankai University]] の [[Shenglin Zhang]]・[[Yongqian Sun]] グループと [[Huawei Technologies]] の産学連携で開発され、FSE 2024 Industry Track で発表された(DOI: 10.1145/3663529.3663834)。コードは gitee.com/milohaha/grayscope で公開済み。
## 構成
1. **データ収集と異常検知**: gala-gopher(eBPF)でメトリクス収集 + gala-anteater で KPI 異常検知
2. **因果グラフ学習**: 専門家知識による骨格グラフ(メタメトリクス間の既知因果関係) + Granger 因果性検定 → メトリクス因果グラフ
3. **根本原因推論**: 部分相関係数と異常度を遷移確率とするランダムウォーク
4. **伝播経路推論**: 累積異常スコア最大の最短経路(Dijkstra 変形)
## 性能
- AC@5 = 90%、Avg@5 = 82%(1241 件の注入障害実験)
- 伝播経路解釈性精度 = 81.5%(200 件評価)
- Huawei Cloud に 4 か月本番展開
## 関連
- 論文: [[@2024__FSE__Illuminating the Gray Zone - Non-Intrusive Gray Failure Localization in Server Operating Systems]]
- 開発者: [[Shenglin Zhang]] / [[Yongqian Sun]] / [[Dan Pei]]
- 概念: [[グレイ障害]] / [[因果発見]] / [[非侵入プロファイリング]] / [[因果推論ベースRCA]]