2025__SC__Characterizing GPU Resilience and Impact on AI - HPC Systems

## Memo ## Memo with LLM ### 論文情報 - **論文のタイトル**: Characterizing GPU Resilience and Impact on AI/HPC Systems (Alternative Title: Story of Two GPUs: Characterizing the Resilience of Hopper H100 and Ampere A100 GPUs) - **著者と所属**: Shengkun Cui, Archit Patke, Ziheng Chen, Aditya Ranjan, Hung Nguyen, Phuong Cao, Saurabh Jha, Brett Bode, Gregory Bauer, Chandra Narayanaswami, Daby Sow, Catello Di Martino, Zbigniew T. Kalbarczyk, and Ravishankar K. Iyer (イリノイ大学アーバナ・シャンペーン校, NCSA, IBM Research, Nokia Bell Labs) - **カンファレンス/ジャーナル名**: SC (International Conference for High Performance Computing, Networking, Storage and Analysis) - **発表年**: 2025 ### 論文概要本論文は、大規模AIシステム「Delta」におけるNVIDIA A100およびH100 GPUのレジリエンス（回復力）を、2.5年間にわたる運用データ（計1,170万GPU時間）に基づいて詳細に比較・特徴付けた研究である。最新のHopperアーキテクチャ（H100）が、Ampereアーキテクチャ（A100）と比較してハードウェアコンポーネントの信頼性を大幅に向上させている一方で、メモリ容量の増大に伴いメモリエラー率が上昇し、既存の回復メカニズムが不十分であることを定量的に示している。 ### 詳細解説 #### 問題設定大規模なHPCおよびAIシステムでは、GPUの故障がシステム全体の可用性とコストに多大な影響を与える。特に、GPUメモリ容量の増加（A100の40GBからH100の96GBへ）とアーキテクチャの進化が、実際の運用環境においてエラー率やジョブの継続性にどのように影響するかを解明する必要がある。本研究では、1,056台のGPUを搭載したシステム「Delta」から収集された、ハードウェアエラーログ（XID）、ジョブスケジューラデータ（Slurm）、およびパフォーマンスモニタリングデータ（DCGM）を分析対象としている。 #### 提案手法 2.5年間の運用ログから、GPUのレジリエンスを評価するための包括的な分析パイプラインを構築した。 - **エラーの集計とフィルタリング**: 短期間（5秒以内）に発生した重複エラーを coalescing（集約）し、真のエラーイベントを特定。 - **コンポーネント別分析**: GPUメモリ、NVLinkインターコネクト、およびその他のハードウェア（GSP, PMU, SPI等）にエラーを分類。 - **MTBE (Mean Time Between Errors) の算出**: GPUごと、およびメモリ容量（GB）あたりの平均エラー間隔を計算し、世代間の比較を実施。 - **エラー伝播分析**: 特定のエラーがどのように波及し、最終的にジョブの強制終了に至るかのパスを可視化。 #### 新規性 A100とH100という主要な2世代のハイエンドGPUについて、これほど大規模かつ長期的な実運用データに基づいたレジリエンス比較は本研究が初である。特に、H100のRow Remapping機能の有効性と限界、および最新のHopperアーキテクチャにおけるハードウェアレジリエンスの劇的な改善（GSP等の導入による効果）を明らかにした点が重要である。 #### 実験設定 - **対象システム**: NCSA Delta HPC（448基のA100、608基のH100/GH200）。 - **データ期間**: A100（2022年10月～2025年3月）、H100（2024年10月～2025年3月）。 - **比較対象**: A100 (40GB HBM2e) vs H100 (96GB HBM3)。 #### 実験結果 - **メモリレジリエンスの低下**: H100の1GPUあたりのメモリエラーMTBEはA100の約1/3.2であり、メモリ容量増に対して回復メカニズムが追いついていない。容量（GB）あたりのMTBEでもH100の方が24%低い。 - **ハードウェアレジリエンスの向上**: H100では、GSP (GPU System Processor) やPMU SPI等の重要なハードウェアコンポーネントのエラーがA100と比較して大幅に減少しており、高い信頼性を実現している。 - **ジョブへの影響**: アプリケーションレベルでのチェックポイント・リカバリ機能が不十分なため、発生したGPUエラーの多くがジョブの失敗に直結している。 - **可用性とオーバープロビジョニング**: 99.9%のジョブレベル可用性を達成するためには、将来の大規模システムにおいて約5%のオーバープロビジョニングが必要になると予測される。 #### 強み (Strengths) - 大規模かつ実運用の長期間データに基づいた高い信頼性。 - 単なるエラー率の報告に留まらず、アーキテクチャの違い（HBM3、GSP等）とレジリエンスの関係を深く考察している点。 - 将来の大規模計算機システムの設計（オーバープロビジョニング等）に対する具体的な示唆。 #### 弱点・課題 (Weaknesses / Limitations) - 単一のデータセンター（Delta）のデータに基づいているため、環境依存の要因（冷却、電源等）を完全に排除できていない可能性がある。 - アプリケーション側の改善（耐故障アルゴリズムの導入等）による緩和効果については、今後の課題とされている。 ## Abstract 本研究では、イリノイ大学アーバナ・シャンペーン校の国立スーパーコンピュータ応用研究所（NCSA）にある、1,056台のA100およびH100 GPUを搭載した大規模AIシステム「Delta」におけるGPUのレジリエンスを特徴付ける。2.5年間の運用データ（計1,170万GPU時間に相当）を利用して、GPUエラーの分析を行った。主な研究結果は以下の通りである。H100 GPUのメモリレジリエンスは、メモリエラーに関する1GPUあたりの平均故障間隔（MTBE）において、A100 GPUよりも3.2倍低い。H100 GPUのメモリエラー回復メカニズムは、増加したメモリ容量に対処するには不十分である。一方で、H100 GPUは、重要なハードウェアコンポーネントにおいて、A100 GPUと比較してハードウェアレジリエンスが大幅に向上している。A100とH100の両方において、アプリケーションレベルでの堅牢な回復メカニズムが不足しているため、GPUエラーは頻繁にジョブの失敗につながる。大規模なシステムにおいてGPU故障に対処し、99.9%のジョブレベルの可用性を維持するためには、5%という大幅なオーバープロビジョニングが必要になると予測される。