# Kaleidoscope
[[University of Illinois Urbana-Champaign]] / [[NCSA]] の Jha ら(SC 2020)が開発した、HPC 分散ストレージシステム向け近リアルタイム障害フォレンジクスフレームワーク。[[Blue Waters]] の Cray Sonexion(Lustre)に実導入済み。
## 主要コンポーネント
- **Store Pings**: 低コスト能動プローブ。CrWr/WrEx/RmEx の 3 種類の I/O 操作でストレージ全レイヤを検査し、Lustre のパスピニング機能で確定経路を固定する
- **障害箇所特定モデル**: 確率的グラフィカルモデル(因子グラフ)。コンポーネント健全性を隠れ変数とし、Store Ping の観測を二項分布でモデル化し、MCMC 推論でコンポーネント健全確率を推定する(PyMC3 実装)
- **障害診断モデル**: (1) 信頼性障害 → RAS ログ差分(184 パターンのライブラリ)、(2) リソース過負荷 → LOF による外れ値検定
## 実績(SC 2020 評価)
- 843 件の本番インシデント: 箇所特定 99.3%・診断 95.8%
- NetBouncer 比: 真陽性 1.67 倍(184 vs 110)、アラーム数 24 分の 1(4,892 vs 116,072)
- オーバーヘッド < 0.01%(本番構成 6 モニタ・1 分間隔)
## 関連
- ソース: [[@2020__SC20__Live Forensics for HPC Systems - A Case Study on Distributed Storage Systems]]
- 開発者: [[Saurabh Jha]] / [[Shengkun Cui]] / [[Tianyin Xu]] / [[Ravishankar K. Iyer]]
- 組織: [[University of Illinois Urbana-Champaign]] / [[NCSA]]
- 導入先: [[Blue Waters]]
- 概念: [[Fault Localization]] / [[根本原因分析]] / [[テレメトリ]]