# NCSA
National Center for Supercomputing Applications。[[University of Illinois Urbana-Champaign]] に置かれるスーパーコンピュータ応用研究所で、[[@2025__SC__Characterizing GPU Resilience and Impact on AI - HPC Systems]] の対象 HPC システム [[Delta]](および DeltaAI)を運用する。論文中では Delta の site reliability engineers(SRE)が XID エラーの選定や GSP/NVLink エラーの挙動に関する現場知見の提供で貢献している。
[[Blue Waters]] スーパーコンピュータの運用母体でもあり、Cray Sonexion(Lustre)ストレージに [[Kaleidoscope]] フレームワーク([[@2020__SC20__Live Forensics for HPC Systems - A Case Study on Distributed Storage Systems]])を 2 年以上導入した。2018 年の NCSA 報告でストレージ関連障害が年間コアアワー損失の 64.4%(3,200 万コアアワー以上)を占めることが報告されている。(Source: [[@2020__SC20__Live Forensics for HPC Systems - A Case Study on Distributed Storage Systems]])
## 関連
- ソース: [[@2020__SC20__Live Forensics for HPC Systems - A Case Study on Distributed Storage Systems]] / [[@2025__SC__Characterizing GPU Resilience and Impact on AI - HPC Systems]]
- 組織: [[University of Illinois Urbana-Champaign]]
- システム: [[Blue Waters]] / [[Delta]]
- 概念: [[GPUクラスタ運用]] / [[Fault Localization]]
## 出典
- [[@2025__SC__Characterizing GPU Resilience and Impact on AI - HPC Systems]](脚注1, §2.1, §2.3 で SRE 知見が引用される)
- [[@2020__SC20__Live Forensics for HPC Systems - A Case Study on Distributed Storage Systems]](Blue Waters Cray Sonexion オペレータとして登場、§VI groud truth を提供)