# Blue Waters
[[NCSA]]([[University of Illinois Urbana-Champaign]])が運用する、論文執筆当時「世界最大の大学 HPC システム」と称されたペタスケールスーパーコンピュータ(計算・ストレージ両面)。
## システム仕様(SC 2020 論文時点)
- **計算ノード**: 28,000+ 台のコンピュートノード(クライアントとして動作)
- **ストレージ**: Cray Sonexion(Lustre 並列分散ファイルシステム)
- 36 PB、17,280 台 HDD(Grid RAID 配置の OSD)
- 6 台メタデータサーバ(MS)、420 台データサーバ(DS)、582 台 LNET ノード
- LNET がコンピュートネットワーク(Cray Gemini)とストレージネットワーク(InfiniBand)を橋渡し
- 2018 年: NCSA 報告でストレージ関連障害が年間コアアワー損失の 64.4%(3,200 万コアアワー以上)を占める
- Lustre はトップ 100 スーパーコンピュータの 70 以上で使用され、クラウドベンダでも採用
## [[Kaleidoscope]] との関係
[[Kaleidoscope]] が 2 年以上にわたって実運用データを収集・評価した実環境。843 件の本番インシデントを含む 2 年分の本番テレメトリデータを使用した。
## 関連
- ソース: [[@2020__SC20__Live Forensics for HPC Systems - A Case Study on Distributed Storage Systems]]
- 運用: [[NCSA]] / [[University of Illinois Urbana-Champaign]]
- 搭載フレームワーク: [[Kaleidoscope]]
- 概念: [[Fault Localization]] / [[テレメトリ]]