@2025__SC__Characterizing GPU Resilience and Impact on AI - HPC Systems

# Characterizing GPU Resilience and Impact on AI/HPC Systems > [!abstract] 概要 > 本研究は、1,056 台の A100・H100 GPU からなり 1,300 ペタフロップス超のピークスループットを持つ大規模 AI システム Delta における GPU レジリエンスを特徴付ける。GPU エラーに関する 2.5 年間の運用データ(1,170 万 GPU 時間)を用いた。主な知見は次のとおり。(i) H100 GPU メモリのレジリエンスは A100 GPU メモリより劣り、メモリエラーの per-GPU MTBE が 3.2 倍低い。(ii) H100 GPU のメモリエラー回復機構は増大したメモリ容量に対処するには不十分である。(iii) H100 GPU は重要ハードウェアコンポーネントに関して A100 GPU より大幅に向上した GPU ハードウェアレジリエンスを示す。(iv) A100・H100 双方で GPU エラーはアプリケーションレベルの堅牢な回復機構の欠如により頻繁にジョブ失敗を引き起こす。(v) より大きな規模での GPU ノード可用性の影響を推計したところ、GPU 障害に対処するには 5% という大幅なオーバープロビジョニングが必要であることがわかった。別題は "Story of Two GPUs: Characterizing the Resilience of Hopper H100 and Ampere A100 GPUs"(arXiv 版タイトル)。同テーマの既存一次ノートとして [[papers/2025__SC__Characterizing GPU Resilience and Impact on AI - HPC Systems|papers/ 側の LLM メモ]] が存在する(温存。本ページから一方向参照のみ)。 ## 論文情報 - タイトル: Characterizing GPU Resilience and Impact on AI/HPC Systems(別題 "Story of Two GPUs") - 著者: Shengkun Cui・Archit Patke(共同筆頭)ほか、責任著者 [[Ravishankar K. Iyer]]。所属は [[University of Illinois Urbana-Champaign]]、[[NCSA]]、[[IBM Research]]、Nokia Bell Labs。 - 媒体: SC '25(International Conference for High Performance Computing, Networking, Storage and Analysis)、2025 年 11 月 16〜21 日、St. Louis, MO, USA。 - arXiv: 2503.11901(v4, 2025-12-10)。DOI: 10.1145/3712285.3759821。 - AD/AE 成果物(ソフトウェア・データセット・解析スクリプト): Zenodo DOI 10.5281/zenodo.15287639。 ## 概要最新世代 Hopper(H100)と前世代 Ampere(A100)という 2 つの GPU を、実運用 HPC システム Delta の長期ログから直接比較した測定研究である。両者を「ストレージクラスタを共有しつつ独立に運用される 2 系統」として観測できるため、世代差を公平に対比できる点が中核の着想である。「メモリは H100 で弱点化し、ハードウェアは H100 で強化された」という対照的な結論を、XID エラーログ・Slurm スケジューラ・DCGM の突き合わせで裏付ける。(Source: 本文 §1, §2.1) ## 問題設定大規模 HPC/AI システムでは GPU 故障がシステム全体の可用性とコストを大きく左右する。とりわけ GPU メモリ容量の増大(A100 の 40 GB から H100 の 96 GB へ)とアーキテクチャの進化が、実運用でのエラー率・回復挙動・ジョブ継続性にどう影響するかは未解明であった。先行研究は Tesla・Kepler・Volta など旧世代の GPU メモリエラーに集中しており、row remapping・error containment・NVLink CRC-retry・GSP といった Ampere 以降の最新レジリエンス/性能機構を備えた世代を、大規模 HPC で評価したものはなかった。本研究は著者らの知る限り A100・H100 の GPU エラーを HPC/ML システムで扱った初の研究である。(Source: 本文 §1) 評価対象は (i) GPU ハードウェア・メモリコンポーネントのレジリエンス、(ii) GPU メモリ・ハードウェア・NVLink インターコネクトにおけるエラー伝播パス、(iii) 観測された GPU エラーのユーザジョブへの影響、の 3 点。(Source: 本文 §1) **Figure 10: 障害要因** ![[_attachments/arxiv-2503.11901/fig10-failure-factors.png]] (Figure 10. 障害要因の内訳を示す。) ## 提案手法 3 段の分析パイプライン(図4)で運用ログから GPU レジリエンスを定量化する。 - **データ源(Stage I)**: システムログ(全計算ノード)から正規表現で NVIDIA XID エラー・回復ログを抽出する。加えて Slurm スケジューラデータベース(ジョブの開始/終了・割当ノード・終了コード・srun コマンド)と NVIDIA DCGM(1 分粒度の GPU メトリクス・状態)を用いる。XID は GPU ハードウェア(MMU・GPU Fallen Off the Bus・GSP・PMU SPI)、NVLink インターコネクト、GPU メモリ(DBE・consecutive SBE)の 3 カテゴリに分類する。ユーザジョブ起因で GPU の健全性に影響しない XID 13(General GPU Software Error)・XID 43(Reset Channel Verification Error)は除外する。(Source: 本文 §2.3, §3.1) - **エラー集約(coalescing)**: 同一 GPU・同一メッセージのエラーが短時間窓 Δt 内に連続するバースト(error burst)を 1 件に集約し過剰計上を防ぐ(Algorithm 1)。Δt = 5 秒を採用する(Δ を縮めると重複が増え、広げても集約数はほぼ変わらないため)。以降の解析はすべて集約後のエラーに対して行う。(Source: 本文 §3.2) - **コンポーネント別エラー統計と MTBE**: 集約ログからエラー数と MTBE(Mean Time Between Errors)を算出する。MTBE は総運用時間が異なる GPU 種別間の公平な比較を可能にする。system-wide MTBE のほか、ノード数で正規化した per-node MTBE、GPU 数で正規化した per-GPU MTBE、メモリ容量(GB)で正規化した per-GB MTBE を導出する。XID から直接数えられないエラー(訂正不能 ECC メモリエラー)は RRE と RRF の和で推計し、consecutive SBE は訂正不能 ECC から DBE を引いて求める。(Source: 本文 §3.2, 表1) - **エラー伝播分析**: エラー $e_1$ から $e_2$ への伝播確率を $P(e_2|e_1)=\#e_2/\text{Total }\#e_1,\ t_{e2}-t_{e1}\le\Delta t$ と定義し、intra-GPU(同一 GPU)と inter-GPU(同一ノードの別 GPU)の伝播パスと伝播時間を測る(図5〜7)。後続エラーがなければ terminal error とみなす。Δt = 5 秒。(Source: 本文 §3.2, §4.2) - **ユーザジョブ影響分析**: GPU エラー発生から 20 秒以内に失敗したジョブを "GPU-Failed" と判定し、XID ごとのジョブ失敗確率を Slurm ログと突き合わせて算出する(表2)。可用性は $\mathit{MTTF}/(\mathit{MTTF}+\mathit{MTTR})$ で推計し、離散イベントシミュレーションで大規模・長時間ジョブへの影響を投影する。(Source: 本文 §5.3, §5.4) **Figure 2: アーキテクチャ** ![[_attachments/arxiv-2503.11901/fig2-architecture.png]] (Figure 2. System architecture and specifications of Delta. This study focuses on the H100 and A100 GPU nodes に関するアーキテクチャを示す。) **Figure 3: ワークフロー** ![[_attachments/arxiv-2503.11901/fig3-workflow.png]] (Figure 3. NVIDIA memory error recovery process for A100 and H100 GPUs に関する処理フローを示す。) **Figure 4: 全体像** ![[_attachments/arxiv-2503.11901/fig4-overview.png]] (Figure 4. Overview of our data collection, processing, and analysis pipeline に関する全体像を示す。) ## 新規性 A100・H100 という主要 2 世代のハイエンド GPU を、これほど大規模(1,170 万 GPU 時間)かつ長期(最長 2.5 年)の実運用データで比較したレジリエンス研究は本研究が初である。とくに (1) H100 の row remapping の有効性と限界(spare row 512 行据え置きという容量非比例性)を定量化し、(2) Hopper 世代でのハードウェアレジリエンスの劇的改善(GSP/NVLink/PMU SPI エラーの激減)を、エラー伝播パスとジョブ影響まで一貫して示した点が貢献である。(Source: 本文 §1, §4) ## 実験設定 - 対象システム: [[NCSA]] の [[Delta]] HPC。A100 系統は 106 台の 4/8-way A100 40 GB ノード(計 448 GPU)、H100 系統は 152 台の 4-way GH200 ノード(計 608 H100 96 GB GPU)。両系統は Lustre ストレージクラスタを共有しつつ独立運用される。本研究の H100 は GH200 Superchip に統合され、NVLink-C2C で Grace CPU と密結合した形態である(ディスクリート H100 とは区別)。(Source: 本文 §2.1, 図2) - データ期間: A100 が 2022 年 10 月〜2025 年 3 月の 895 日、H100 が 2024 年 10 月〜2025 年 3 月の 146 日。合計 1,170 万 GPU 時間(A100 960 万・H100 210 万)。(Source: 本文 §3.1) - 運用条件: A100/H100 の平均 GPU 利用率は 51%/41%、平均温度は 40°C/37°C(いずれも液冷)。Field-of-Science 分布も両系統で類似し、比較可能な運用条件にある。(Source: 本文 §2.2) - メモリ: A100 は 40 GB HBM2e、H100 は 96 GB HBM3。いずれも SECDED ECC 保護。(Source: 本文 §1, §2.4) ## 実験結果 - **メモリレジリエンスの低下(H100)**: 訂正不能 ECC メモリエラーの per-GPU MTBE は H100 が 88,768 時間、A100 が 283,271 時間で **3.2 倍低い**。per-GB MTBE でも H100 の HBM3 が約 8,521,728 時間、A100 の HBM2e が約 11,330,826 時間で **24% 低い**。著者らは主因を 2.4 倍のメモリ容量増(bit flip 機会の増加)とし、加えて信号電圧の低下とスタック数増による放熱悪化を仮説として挙げる。(Source: 本文 §1, §4.1, 表1) - **回復機構の容量非対応**: row remapping・error containment は H100 で訂正不能メモリエラーの **92%** を緩和する(図5の伝播分析、RRE と RRF 後の containment を合算)。しかし spare row 上限は世代をまたいで **512 行に据え置き**で、2.4 倍のメモリ容量増に比例しない。実際 H100 では RRE の per-node MTBE が A100 より低く(回復イベントが頻発)、初期運用期に **8 件の RRF(row remapping failure)** を観測した。より長い観測期間の A100 では RRF は 1 件も観測されていない。(Source: 本文 §1, §4.1, 表1) - **ハードウェアレジリエンスの向上(H100)**: A100 では GSP エラー 3,857 件(XID 119/120)、NVLink エラー 1,922 件(XID 74)、PMU SPI エラー 77 件(XID 122/123)、GPU Fallen Off the Bus 10 件(XID 79)が観測されたのに対し、H100 では **GSP エラーわずか 3 件**、NVLink・PMU SPI・Fallen Off the Bus は **観測ゼロ**。著者らは GH200 の密結合 CPU-GPU 統合とドライバ改善に帰している。(Source: 本文 §4.1, 表1) - **エラー伝播パス**: A100 では GSP エラーの **99% 超** が GPU をエラー状態にしジョブ失敗を招く(GSP は single point of failure)。PMU SPI エラーは確率 0.88 で MMU エラーに伝播し、その MMU エラーが 90% 超でジョブ失敗に至る。NVLink エラーは 42%(801 件)が 2 GPU 以上に波及し、ジョブ遭遇時のジョブ失敗確率は 54%(SRE は大半を benign と報告)。(Source: 本文 §4.2, 図6, 図7) - **ジョブ失敗**: MMU・NVLink を除く GPU エラーはアプリケーション側で処理されず、ほぼ 100% ジョブ失敗。XID 別ジョブ失敗確率(表2)は GSP RPC timeout(XID 119)100%、PMU SPI(XID 122)97.56%、Contained ECC(XID 94)100%、MMU(XID 31)A100 90.48%/H100 73.80%。A100 はハードウェアエラー、H100 はメモリエラーが主因。観測期間中の総ジョブ 1,420,278 件、成功率 87%、ジョブサイズ別の失敗確率は 6〜49%。(Source: 本文 §5.1, §5.2, §5.3, 表2, 表3) - **可用性とオーバープロビジョニング**: per-GPU ノード可用性は A100 約 99.4%、H100 約 99.3%(1 日 9〜10 分のダウンタイム)。障害ノードの平均復旧時間は A100 0.88 時間、H100 2.2 時間で、計 5,700 ノード時間がダウンタイムに失われた。608 GPU・復旧 2.2 時間のジョブで 99.9% 可用性をジョブレベルに保つには **5% のオーバープロビジョニング(608 に対し追加 31 GPU)** が必要で、1000 ノード規模では **月 100 万ドル超**。復旧時間を 5 分に短縮できればオーバープロビジョニングは 2%(2.5 倍削減)に下がる。(Source: 本文 §5.1, §5.4) - **時間的傾向**: GPU エラー率は古典的なバスタブ曲線に従い、infant-mortality 期の system-wide MTBE 0.15 時間が normal-life 期には 1.4 時間へ 10 倍に改善した。Nelson-Aalen 推定による hazard-rate は運用期に明確な時間トレンドを示さない。(Source: 本文 §4.1) **Table 1: 表** ![[_attachments/arxiv-2503.11901/table1-table.png]] (Table 1. 論文中の主要な表を示す。) ## 考察著者らは GSP・PMU・SPI など通信インターフェースの単一障害点を冗長化と検知/訂正機構で改善すべきだと主張する(AWS も安定性のため GSP 無効化を推奨)。H100 の改善は密結合 CPU-GPU 統合とドライバ改善の効果だと位置づける。一方でアプリケーション側のチェックポイントは最大 40% のオーバーヘッドがあり、回復策として万能ではない。GPU は本番運用で「2 nines」程度の可用性しか持たず、3 nines 超を要する重要アプリには不足する。fault ではなく error を分析対象に選んだのは、error こそ回復機構が対処すべき fault の顕在化だからだとする(SRE は error を優先する)。(Source: 本文 §5.1, §6) ## 強み - 1,170 万 GPU 時間・最長 2.5 年という大規模・長期の実運用データに基づく高い信頼性。ストレージを共有しつつ独立運用される A100/H100 2 系統を、利用率・温度・ワークロード分布が類似した条件で対比できる設計。 - エラー率の報告にとどまらず、HBM3・GSP などアーキテクチャ差とレジリエンスの因果を、伝播パスとジョブ影響まで一貫して掘り下げている。 - オーバープロビジョニング 5%・月 100 万ドルといった、将来システム設計に直結する具体的な経済的示唆を与える。 - ソフトウェア・データセット・解析スクリプトを Zenodo で公開し再現性を担保。 ## 弱点・課題 - 単一データセンター(Delta)のデータに基づくため、冷却・電源など環境依存要因を完全には排除できない。H100 系統の観測期間が 146 日と A100(895 日)より大幅に短く、H100 の long-term 挙動(A100 で 0 件だった RRF が H100 初期で 8 件など)は観測窓の差が一部寄与しうる。 - H100 は GH200 Superchip 統合形態に限られ、ディスクリート H100 には直接一般化できないと著者自身が断っている。 - ジョブ分類は名称・ロード済みライブラリからの推定で、プライバシー制約により実ジョブスクリプトを参照できていない。ML/非 ML の切り分けは近似である。 - アプリケーション側の耐故障アルゴリズム導入による緩和効果の定量評価は今後の課題とされる。