# Delta
[[NCSA]]([[University of Illinois Urbana-Champaign]])が運用する大規模 GPU HPC システム。[[@2025__SC__Characterizing GPU Resilience and Impact on AI - HPC Systems]] の研究対象であり、エラーログ・Slurm・DCGM から成る運用データセットの提供元でもある。NSF grant 2005572・2320345 等の支援を受ける。
## 構成
- A100 系統: 106 台の 4/8-way A100 40 GB(HBM2e)ノード、計 448 GPU。
- H100 系統: 152 台の 4-way GH200 ノード(Grace CPU + H100 96 GB HBM3)、計 608 GPU。GH200 は H100 を Grace CPU と NVLink-C2C で密結合した形態(ディスクリート H100 と区別される)。
- 計 1,056 台の A100/H100 GPU、ピーク 1,300 ペタフロップス超。両系統は Lustre 並列ファイルシステムのストレージクラスタを共有し、独立に運用される。
- ほかに A40 GPU ノード・CPU-only ノードを含むが、本研究は A100/H100 ノードに焦点を当てる。
論文では本システムから 2.5 年分・1,170 万 GPU 時間の運用データ(XID エラーログ・Slurm スケジューラ DB・DCGM メトリクス)を収集して GPU レジリエンスを特徴付けた。per-GPU ノード可用性は A100 約 99.4%・H100 約 99.3% と測定された。AI/ML 拡張版として DeltaAI(GH200 ノード)が知られる。
## 関連
- ソース: [[@2025__SC__Characterizing GPU Resilience and Impact on AI - HPC Systems]]
- 組織: [[NCSA]] / [[University of Illinois Urbana-Champaign]]
- 概念: [[GPUクラスタ運用]]
## 出典
- [[@2025__SC__Characterizing GPU Resilience and Impact on AI - HPC Systems]](§2.1 Delta Specifications, 図2, 参照 [6] DeltaAI: A National Resource for AI/ML Research, PEARC '25)