2025__arXiv__Characterizing GPU Resilience and Impact on AI-HPC Systems

## Memo ## Memo with LLM ### 論文情報 - 論文のタイトル: Characterizing GPU Resilience and Impact on AI/HPC Systems - 著者と所属: Shengkun Cui (UIUC), Archit Patke (UIUC), Hung Nguyen (UIUC), Aditya Ranjan (UIUC), Ziheng Chen (UIUC), Phuong Cao (UIUC), Brett Bode (NCSA, UIUC), Gregory Bauer (NCSA, UIUC), Catello Di Martino (Nokia Bell Labs), Saurabh Jha (IBM Research), Chandra Narayanaswami (IBM Research), Daby Sow (IBM Research), Zbigniew T. Kalbarczyk (UIUC), Ravishankar K. Iyer (UIUC) - カンファレンス/ジャーナル名: arXiv preprint - 発表年: 2025 ### 論文概要本研究は、1,056個のNVIDIA [[A100]]および[[H100]] GPUを搭載した大規模AIシステムであるDeltaにおけるGPUの信頼性を、2.5年間の運用データ（1,170万GPU時間）を用いて包括的に評価した。H100 GPUのメモリ信頼性がA100と比較して3.2倍低いこと、GPUハードウェアの信頼性はH100で大幅に改善されたこと、そしてGPUエラーが適切な回復メカニズムの欠如により頻繁にジョブ失敗を引き起こすことを明らかにした。 ### 詳細解説 #### 問題設定入力：DeltaシステムのGPUエラーログ、[[Slurm]]スケジューラデータベース、NVIDIA [[DCGM]]メトリクスデータ出力：GPUコンポーネントの信頼性評価、エラー伝播パス、ユーザージョブへの影響分析必要なデータ：システムログ（XIDエラーメッセージ）、ジョブスケジューリング情報、GPU利用率メトリクス（1分間隔） #### 提案手法エラー合体アルゴリズムを用いて、短時間間隔（Δt=5秒）内の同一エラーログを単一エラーとして集約し、重複カウントを防止。エラー伝播確率を P(e2|e1) =\#e2/Total \#e1 (te2-te1≤Δt) として定義し、GPU内およびGPU間のエラー伝播パスを定量化。システム全体のMTBE（Mean Time Between Errors）、ノードごとのMTBE、GPUごとのMTBE、GBごとのMTBEを階層的に算出することで、異なる粒度での信頼性評価を実現。 #### 新規性先行研究（DeBardelabenら2014、Di Martinoら2014、Tiwartiら2015など）は主に古いGPU世代（Tesla、Kepler、Volta）のメモリエラーに焦点を当てていたが、本研究は最新のAmpere（[[A100]]）およびHopper（[[H100]]）世代のGPUにおける包括的な信頼性評価を初めて実施。特に、行再マッピング、エラー封じ込め、NVLink CRCリトライなどの最新の信頼性機能の有効性を実証的に評価した点が新しい。 #### 実験設定使用データセット：Delta HPCシステム（448個のA100 GPU、608個のH100 GPU）評価期間：A100は895日間（2022年10月〜2025年3月）、H100は146日間（2024年10月〜2025年3月）評価指標：MTBE（Mean Time Between Errors）、エラー伝播確率、ジョブ失敗率、ノード可用性 #### 実験結果 H100 GPUのメモリに関する主要な発見： - 訂正不能ECCメモリエラーのGPUあたりMTBEは88,768時間（H100）対283,271時間（A100）で3.2倍低い - GBあたりMTBEは8,521,728時間（H100 HBM3）対11,330,826時間（A100 HBM2e）で24%低い - H100でのエラー回復メカニズムは92%の確率で訂正不能メモリエラーを緩和ハードウェア信頼性に関する結果： - H100ではGSPエラーが3件のみ（A100では3,857件） - H100ではPMU SPIエラーと[[NVLink]]エラーは観測されず（A100ではPMU SPIエラー77件、NVLinkエラー1,922件） - ノード可用性はA100で99.4%、H100で99.3%（1日あたり9-10分のダウンタイム）ジョブへの影響： - MMUと[[NVLink]]エラーを除き、ほぼ100%のGPUエラーがジョブ失敗を引き起こす - 大規模ジョブ（608 GPU、1ヶ月実行）で99.9%の可用性を維持するには5%のオーバープロビジョニングが必要（月額100万ドル以上のコスト） ## Abstract 本研究では、1,056個のA100およびH100 GPUを搭載し、1,300ペタフロップス以上のピーク処理能力を持つ大規模AIシステムであるDeltaにおけるGPUの信頼性を特徴づけた。2.5年間の運用データ（1,170万GPU時間）のGPUエラーを使用した。主要な発見事項には以下が含まれる：(i) H100 GPUメモリの信頼性はA100 GPUメモリよりも悪く、メモリエラーに対するGPUあたりのMTBEが3.2倍低い、(ii) H100 GPUのGPUメモリエラー回復メカニズムは、増加したメモリ容量を処理するには不十分である、(iii) H100 GPUは、GSP、NVLink、PMU SPIなどの重要なハードウェアコンポーネントに関して、A100 GPUよりも大幅に改善されたGPUハードウェア信頼性を示している、(iv) A100およびH100 GPUの両方でGPUエラーは、アプリケーションレベルでの堅牢な回復メカニズムの欠如により頻繁にジョブ失敗を引き起こす、(v) より大規模なGPUノード可用性への影響を予測し、GPU障害を処理するために5%の大幅なオーバープロビジョニングが必要であることを発見した。