# NCSA National Center for Supercomputing Applications。[[University of Illinois Urbana-Champaign]] に置かれるスーパーコンピュータ応用研究所で、[[@2025__SC__Characterizing GPU Resilience and Impact on AI - HPC Systems]] の対象 HPC システム [[Delta]](および DeltaAI)を運用する。論文中では Delta の site reliability engineers(SRE)が XID エラーの選定や GSP/NVLink エラーの挙動に関する現場知見の提供で貢献している。 [[Blue Waters]] スーパーコンピュータの運用母体でもあり、Cray Sonexion(Lustre)ストレージに [[Kaleidoscope]] フレームワーク([[@2020__SC20__Live Forensics for HPC Systems - A Case Study on Distributed Storage Systems]])を 2 年以上導入した。2018 年の NCSA 報告でストレージ関連障害が年間コアアワー損失の 64.4%(3,200 万コアアワー以上)を占めることが報告されている。(Source: [[@2020__SC20__Live Forensics for HPC Systems - A Case Study on Distributed Storage Systems]]) ## 関連 - ソース: [[@2020__SC20__Live Forensics for HPC Systems - A Case Study on Distributed Storage Systems]] / [[@2025__SC__Characterizing GPU Resilience and Impact on AI - HPC Systems]] - 組織: [[University of Illinois Urbana-Champaign]] - システム: [[Blue Waters]] / [[Delta]] - 概念: [[GPUクラスタ運用]] / [[Fault Localization]] ## 出典 - [[@2025__SC__Characterizing GPU Resilience and Impact on AI - HPC Systems]](脚注1, §2.1, §2.3 で SRE 知見が引用される) - [[@2020__SC20__Live Forensics for HPC Systems - A Case Study on Distributed Storage Systems]](Blue Waters Cray Sonexion オペレータとして登場、§VI groud truth を提供)