# GPUレジリエンス
## 定義
GPU レジリエンスは、データセンター GPU のハードウェアレベルの信頼性——メモリ(HBM)・インターコネクト(NVLink)・オンボード機構(GSP・PMU・MMU)等のエラー発生率と回復機構——と、それが AI/HPC ジョブの可用性・コストに与える影響を特徴づける取り組み。[[@2025__DSN-W__Characterizing Modern GPU Resilience and Impact in HPC Systems - A Case Study of A100 GPUs]] は NCSA の [[Delta]] システムで A100 GPU だけを 3 年・1,250 万 GPU 時間にわたり測り、[[@2025__SC__Characterizing GPU Resilience and Impact on AI - HPC Systems]] は同じ Delta 系列を A100/H100 世代比較へ拡張する。指標は **MTBE(Mean Time Between Errors)** を中心に、コンポーネント別エラー分類とエラー伝播確率を用いる。[[GPUクラスタ運用]] の fault landscape をハードウェア物理層から見た下位領域に当たり、[[耐障害LLM訓練]] が補償すべき「信頼性の床」を与える。
## 横断的知見
- **A100 単体ではメモリより非メモリハードウェアが弱点で、これが H100 比較の基準線になる**: [[@2025__DSN-W__Characterizing Modern GPU Resilience and Impact in HPC Systems - A Case Study of A100 GPUs]] は Delta の A100 106 ノード/448 GPU で、運用期の GPU メモリ per-node MTBE が 24,749 時間、非メモリ GPU ハードウェアが 155 時間で、メモリが 160 倍高信頼だと示す。弱点は GSP(ジョブ失敗率 100%、per-node MTBE 590h)・PMU SPI(97.56%)・MMU(90.48%)・NVLink(53.75%)である。後続の [[@2025__SC__Characterizing GPU Resilience and Impact on AI - HPC Systems]] はこの A100 基準線に H100 を重ね、H100 では GSP/NVLink/PMU 等の非メモリハードウェアが大幅改善する一方でメモリ MTBE が A100 の 1/3.2 に悪化すると示す。つまり「A100 ではハードウェアが弱点、H100 ではメモリが弱点」という世代間の弱点反転が見える。(Source: [[@2025__DSN-W__Characterizing Modern GPU Resilience and Impact in HPC Systems - A Case Study of A100 GPUs]], [[@2025__SC__Characterizing GPU Resilience and Impact on AI - HPC Systems]])
- **世代交代でハードウェアは強くなるがメモリは弱くなる——回復機構が容量増に追いつかない**: [[@2025__SC__Characterizing GPU Resilience and Impact on AI - HPC Systems]] は、H100 が GSP・PMU SPI・NVLink 等の重要コンポーネントでエラーを大幅に減らし(GSP は 3 件のみ、NVLink/PMU SPI/Fallen-off-bus はゼロ)ハードウェアレジリエンスを向上させた一方、メモリの per-GPU MTBE は A100 の 1/3.2(88,768h 対 283,271h)、per-GB でも 24% 低いと示す。原因は回復機構の据え置き——spare row は 512 行のまま容量は 2.4 倍で、Row Remapping Failure は H100 で 8 件・A100 で 0 件。レジリエンスは世代で一様に改善せず、容量がスケールする部位(メモリ)で逆行する。(Source: [[@2025__SC__Characterizing GPU Resilience and Impact on AI - HPC Systems]])
- **GPU エラーはアプリ層の頑健な復旧が無ければほぼ直接ジョブ失敗になり、経済的冗長を強いる**: 同論文は MMU/NVLink 以外の GPU エラーがほぼ 100% ジョブ失敗につながり、A100 はハードウェア主因・H100 はメモリ主因で、99.9% のジョブ可用性には 5% のオーバープロビジョニング(1,000 ノードで月 100 万ドル超)が要ると示す。これは [[@2025__SOSP__Robust LLM Training Infrastructure at ByteDance]] が「インフラ障害は件数 11% でも GPU 時間の 82% を食う」と観測し自動隔離・復旧で応えるのと表裏で、ハードウェアの信頼性の床が低いほど耐障害ソフトウェアと冗長プロビジョニングの負担が増す。(Source: [[@2025__SC__Characterizing GPU Resilience and Impact on AI - HPC Systems]], [[@2025__SOSP__Robust LLM Training Infrastructure at ByteDance]])
- **「信頼性の床」は運用側の故障管理・ノード健全性が埋める——埋め方は「真の故障の特定」と「過剰排除の抑制」の同時最適化に収束する**: GPU Resilience が示すハードウェアの低い床(メモリ MTBE の世代逆行・5% オーバープロビジョニング)を、運用層が二方向から埋めにいく。[[@2025__SC__Fine-grained Automated Failure Management for Extreme-Scale GPU Accelerated Systems]](Aurora 63,744 GPU)は集中型メタデータベースに相関イベント履歴を蓄え、頻度ベースの multi-strike 判定でノード単位でなく GPU 単位まで修復粒度を下げることで、過剰なノードドレインを抑えつつ真のハードウェア故障を特定し、MTTR を手動比 最大 84 倍短縮する。[[@2026__MLSys2026__Guard - Scalable Straggler Detection and Node Health Management for Large-Scale Training]](Amazon、数千 GPU)は、NCCL テスト・GPU バーンインを通過しながら性能を暗黙に劣化させる**グレーノード**(fail-slow)という床の別側面——XID に現れず数週間沈黙残存する劣化——を、オンライン監視で検知しオフラインノードスイープ(現実的ワークロード再現の 1–2 時間検証)で隔離して、MTTF を 2.5 倍・人的介入間隔を 11 倍改善する。GPU Resilience が「XID に現れる急性故障」を物理層から特徴づけたのに対し、Guard は「XID に現れない劣化」を運用層から塞ぐ。床のもう一つの側面は物理部品故障で、[[@2025__APNET__Forewarned is Forearmed - Joint Prediction and Classification of Optical Transceiver Failures in Large-Scale LLM Training Clusters]](OptProphet)は光トランシーバー故障を F1 0.884・平均 1.11 日前に予測し、床が崩れる前に先回りで補強する方向を示す。(Source: [[@2025__SC__Fine-grained Automated Failure Management for Extreme-Scale GPU Accelerated Systems]], [[@2026__MLSys2026__Guard - Scalable Straggler Detection and Node Health Management for Large-Scale Training]], [[@2025__SC__Characterizing GPU Resilience and Impact on AI - HPC Systems]], [[@2025__APNET__Forewarned is Forearmed - Joint Prediction and Classification of Optical Transceiver Failures in Large-Scale LLM Training Clusters]])
## 未解決の問い
- ハードウェアの「信頼性の床」(メモリ MTBE の世代逆行)を運用側が埋めるコスト(GPU Resilience の 5% オーバープロビジョニング)と、故障管理の高度化(Guard の MTTF 2.5 倍、Fine-grained の MTTR 84 倍短縮)はどこで釣り合うか。運用層の改善は冗長プロビジョニング率をどこまで下げられるか。
- XID/RAS ログに現れる急性故障(GPU Resilience が特徴づけた床)と、XID に現れない fail-slow(Guard のグレーノード、ByteRobust の SDC)とは、同じ「床」の連続体か別物か。両者を統合計測する単一の健全性指標(ステップ時間を一次シグナルにする Guard の流儀)で床全体を測れるか。
- メモリ容量増(HBM)に比例しない回復機構(spare row 512 固定)を、世代をまたいでどう設計すべきか。Row Remapping 以外の機構(より細粒度の error containment)で容量スケールに追従できるか。
- A100 で GSP/PMU SPI が弱点だった問題は H100/GH200 でどこまで設計的に解決されたのか。SC 2025 版は GSP 3 件・PMU SPI 0 件を示すが、観測期間差と統合 GH200 固有性を除いたとき、ディスクリート H100 や B200 世代でも同じ改善が続くか。
- GPU 内エラー伝播確率(PMU SPI→MMU 0.88、GSP→エラー状態 0.99)を、ジョブ退避の先回り型トリガに使えるか([[障害予測]])。伝播の途中で介入すればジョブ失敗を避けられるか。
- ディスクリート H100 と統合 GH200(Grace Hopper)でレジリエンスはどう異なるか。NVLink-C2C 等の新インターコネクトは新たな故障モードを持ち込むか。
- 単一データセンター(Delta)の知見は冷却・電源等の環境要因をどこまで一般化できるか。SDC(silent data corruption、ByteRobust の EUD recall 70%)のような XID に現れない故障は本特徴づけの外で、どう統合計測するか。
## 関連
- ソース: [[@2025__DSN-W__Characterizing Modern GPU Resilience and Impact in HPC Systems - A Case Study of A100 GPUs]] / [[@2025__SC__Characterizing GPU Resilience and Impact on AI - HPC Systems]] / [[@2025__SOSP__Robust LLM Training Infrastructure at ByteDance]] / [[@2025__SC__Fine-grained Automated Failure Management for Extreme-Scale GPU Accelerated Systems]] / [[@2026__MLSys2026__Guard - Scalable Straggler Detection and Node Health Management for Large-Scale Training]] / [[@2025__APNET__Forewarned is Forearmed - Joint Prediction and Classification of Optical Transceiver Failures in Large-Scale LLM Training Clusters]]
- 概念: [[GPUクラスタ運用]](fault landscape) / [[耐障害LLM訓練]](信頼性の床を補償) / [[障害予測]](エラー伝播の先回り) / [[障害緩和]](multi-strike/段階的緩和) / [[ストラグラー]](グレーノード=fail-slow) / [[LLM分散学習]]
- エンティティ: [[Delta]] / [[NCSA]] / [[University of Illinois Urbana-Champaign]] / [[Shengkun Cui]] / [[Ravishankar K. Iyer]] / [[IBM Research]] / [[Nokia Bell Labs]] / [[Aurora]] / [[Guard]] / [[OptProphet]]
- 関連 MOC: [[HPC - MOC]] / [[分散深層学習 - MOC]]
## 出典
- [[@2025__DSN-W__Characterizing Modern GPU Resilience and Impact in HPC Systems - A Case Study of A100 GPUs]](A100 106 ノード/448 GPU、3 年・12.5M GPU hours、GSP/PMU/MMU/NVLink/メモリ回復、表I/II)
- [[@2025__SC__Characterizing GPU Resilience and Impact on AI - HPC Systems]](§1 Introduction, §4.1/§4.2 コンポーネント別・MTBE・伝播, §5 ジョブ影響・オーバープロビジョニング, 表1/表2)
- [[@2025__SOSP__Robust LLM Training Infrastructure at ByteDance]](§2.2 障害分布, §9 SDC/EUD)
- [[@2025__SC__Fine-grained Automated Failure Management for Extreme-Scale GPU Accelerated Systems]](集中型メタDB・multi-strike 修復ポリシー・GPU 単位の細粒度修復・MTTR 手動比 最大 84 倍短縮)
- [[@2026__MLSys2026__Guard - Scalable Straggler Detection and Node Health Management for Large-Scale Training]](グレーノード=fail-slow、オンライン監視+オフラインノードスイープ、MTTF 2.5 倍・人的介入間隔 11 倍)
- [[@2025__APNET__Forewarned is Forearmed - Joint Prediction and Classification of Optical Transceiver Failures in Large-Scale LLM Training Clusters]](光トランシーバー故障予測 F1 0.884・平均 1.11 日前アラーム)