Delta - yuuk1's Digital Garden

# Delta [[NCSA]]([[University of Illinois Urbana-Champaign]])が運用する大規模 GPU HPC システム。[[@2025__SC__Characterizing GPU Resilience and Impact on AI - HPC Systems]] の研究対象であり、エラーログ・Slurm・DCGM から成る運用データセットの提供元でもある。NSF grant 2005572・2320345 等の支援を受ける。 ## 構成 - A100 系統: 106 台の 4/8-way A100 40 GB(HBM2e)ノード、計 448 GPU。 - H100 系統: 152 台の 4-way GH200 ノード(Grace CPU + H100 96 GB HBM3)、計 608 GPU。GH200 は H100 を Grace CPU と NVLink-C2C で密結合した形態(ディスクリート H100 と区別される)。 - 計 1,056 台の A100/H100 GPU、ピーク 1,300 ペタフロップス超。両系統は Lustre 並列ファイルシステムのストレージクラスタを共有し、独立に運用される。 - ほかに A40 GPU ノード・CPU-only ノードを含むが、本研究は A100/H100 ノードに焦点を当てる。論文では本システムから 2.5 年分・1,170 万 GPU 時間の運用データ(XID エラーログ・Slurm スケジューラ DB・DCGM メトリクス)を収集して GPU レジリエンスを特徴付けた。per-GPU ノード可用性は A100 約 99.4%・H100 約 99.3% と測定された。AI/ML 拡張版として DeltaAI(GH200 ノード)が知られる。 ## 関連 - ソース: [[@2025__SC__Characterizing GPU Resilience and Impact on AI - HPC Systems]] - 組織: [[NCSA]] / [[University of Illinois Urbana-Champaign]] - 概念: [[GPUクラスタ運用]] ## 出典 - [[@2025__SC__Characterizing GPU Resilience and Impact on AI - HPC Systems]](§2.1 Delta Specifications, 図2, 参照 [6] DeltaAI: A National Resource for AI/ML Research, PEARC '25)