# Kaleidoscope [[University of Illinois Urbana-Champaign]] / [[NCSA]] の Jha ら(SC 2020)が開発した、HPC 分散ストレージシステム向け近リアルタイム障害フォレンジクスフレームワーク。[[Blue Waters]] の Cray Sonexion(Lustre)に実導入済み。 ## 主要コンポーネント - **Store Pings**: 低コスト能動プローブ。CrWr/WrEx/RmEx の 3 種類の I/O 操作でストレージ全レイヤを検査し、Lustre のパスピニング機能で確定経路を固定する - **障害箇所特定モデル**: 確率的グラフィカルモデル(因子グラフ)。コンポーネント健全性を隠れ変数とし、Store Ping の観測を二項分布でモデル化し、MCMC 推論でコンポーネント健全確率を推定する(PyMC3 実装) - **障害診断モデル**: (1) 信頼性障害 → RAS ログ差分(184 パターンのライブラリ)、(2) リソース過負荷 → LOF による外れ値検定 ## 実績(SC 2020 評価) - 843 件の本番インシデント: 箇所特定 99.3%・診断 95.8% - NetBouncer 比: 真陽性 1.67 倍(184 vs 110)、アラーム数 24 分の 1(4,892 vs 116,072) - オーバーヘッド < 0.01%(本番構成 6 モニタ・1 分間隔) ## 関連 - ソース: [[@2020__SC20__Live Forensics for HPC Systems - A Case Study on Distributed Storage Systems]] - 開発者: [[Saurabh Jha]] / [[Shengkun Cui]] / [[Tianyin Xu]] / [[Ravishankar K. Iyer]] - 組織: [[University of Illinois Urbana-Champaign]] / [[NCSA]] - 導入先: [[Blue Waters]] - 概念: [[Fault Localization]] / [[根本原因分析]] / [[テレメトリ]]