# Blue Waters [[NCSA]]([[University of Illinois Urbana-Champaign]])が運用する、論文執筆当時「世界最大の大学 HPC システム」と称されたペタスケールスーパーコンピュータ(計算・ストレージ両面)。 ## システム仕様(SC 2020 論文時点) - **計算ノード**: 28,000+ 台のコンピュートノード(クライアントとして動作) - **ストレージ**: Cray Sonexion(Lustre 並列分散ファイルシステム) - 36 PB、17,280 台 HDD(Grid RAID 配置の OSD) - 6 台メタデータサーバ(MS)、420 台データサーバ(DS)、582 台 LNET ノード - LNET がコンピュートネットワーク(Cray Gemini)とストレージネットワーク(InfiniBand)を橋渡し - 2018 年: NCSA 報告でストレージ関連障害が年間コアアワー損失の 64.4%(3,200 万コアアワー以上)を占める - Lustre はトップ 100 スーパーコンピュータの 70 以上で使用され、クラウドベンダでも採用 ## [[Kaleidoscope]] との関係 [[Kaleidoscope]] が 2 年以上にわたって実運用データを収集・評価した実環境。843 件の本番インシデントを含む 2 年分の本番テレメトリデータを使用した。 ## 関連 - ソース: [[@2020__SC20__Live Forensics for HPC Systems - A Case Study on Distributed Storage Systems]] - 運用: [[NCSA]] / [[University of Illinois Urbana-Champaign]] - 搭載フレームワーク: [[Kaleidoscope]] - 概念: [[Fault Localization]] / [[テレメトリ]]