GPUレジリエンス - yuuk1's Digital Garden

# GPUレジリエンス ## 定義 GPU レジリエンスは、データセンター GPU のハードウェアレベルの信頼性——メモリ(HBM)・インターコネクト(NVLink)・オンボード機構(GSP・PMU・MMU)等のエラー発生率と回復機構——と、それが AI/HPC ジョブの可用性・コストに与える影響を特徴づける取り組み。[[@2025__DSN-W__Characterizing Modern GPU Resilience and Impact in HPC Systems - A Case Study of A100 GPUs]] は NCSA の [[Delta]] システムで A100 GPU だけを 3 年・1,250 万 GPU 時間にわたり測り、[[@2025__SC__Characterizing GPU Resilience and Impact on AI - HPC Systems]] は同じ Delta 系列を A100/H100 世代比較へ拡張する。指標は **MTBE(Mean Time Between Errors)** を中心に、コンポーネント別エラー分類とエラー伝播確率を用いる。[[GPUクラスタ運用]] の fault landscape をハードウェア物理層から見た下位領域に当たり、[[耐障害LLM訓練]] が補償すべき「信頼性の床」を与える。 ## 横断的知見 - **A100 単体ではメモリより非メモリハードウェアが弱点で、これが H100 比較の基準線になる**: [[@2025__DSN-W__Characterizing Modern GPU Resilience and Impact in HPC Systems - A Case Study of A100 GPUs]] は Delta の A100 106 ノード/448 GPU で、運用期の GPU メモリ per-node MTBE が 24,749 時間、非メモリ GPU ハードウェアが 155 時間で、メモリが 160 倍高信頼だと示す。弱点は GSP(ジョブ失敗率 100%、per-node MTBE 590h)・PMU SPI(97.56%)・MMU(90.48%)・NVLink(53.75%)である。後続の [[@2025__SC__Characterizing GPU Resilience and Impact on AI - HPC Systems]] はこの A100 基準線に H100 を重ね、H100 では GSP/NVLink/PMU 等の非メモリハードウェアが大幅改善する一方でメモリ MTBE が A100 の 1/3.2 に悪化すると示す。つまり「A100 ではハードウェアが弱点、H100 ではメモリが弱点」という世代間の弱点反転が見える。(Source: [[@2025__DSN-W__Characterizing Modern GPU Resilience and Impact in HPC Systems - A Case Study of A100 GPUs]], [[@2025__SC__Characterizing GPU Resilience and Impact on AI - HPC Systems]]) - **世代交代でハードウェアは強くなるがメモリは弱くなる——回復機構が容量増に追いつかない**: [[@2025__SC__Characterizing GPU Resilience and Impact on AI - HPC Systems]] は、H100 が GSP・PMU SPI・NVLink 等の重要コンポーネントでエラーを大幅に減らし(GSP は 3 件のみ、NVLink/PMU SPI/Fallen-off-bus はゼロ)ハードウェアレジリエンスを向上させた一方、メモリの per-GPU MTBE は A100 の 1/3.2(88,768h 対 283,271h)、per-GB でも 24% 低いと示す。原因は回復機構の据え置き——spare row は 512 行のまま容量は 2.4 倍で、Row Remapping Failure は H100 で 8 件・A100 で 0 件。レジリエンスは世代で一様に改善せず、容量がスケールする部位(メモリ)で逆行する。(Source: [[@2025__SC__Characterizing GPU Resilience and Impact on AI - HPC Systems]]) - **GPU エラーはアプリ層の頑健な復旧が無ければほぼ直接ジョブ失敗になり、経済的冗長を強いる**: 同論文は MMU/NVLink 以外の GPU エラーがほぼ 100% ジョブ失敗につながり、A100 はハードウェア主因・H100 はメモリ主因で、99.9% のジョブ可用性には 5% のオーバープロビジョニング(1,000 ノードで月 100 万ドル超)が要ると示す。これは [[@2025__SOSP__Robust LLM Training Infrastructure at ByteDance]] が「インフラ障害は件数 11% でも GPU 時間の 82% を食う」と観測し自動隔離・復旧で応えるのと表裏で、ハードウェアの信頼性の床が低いほど耐障害ソフトウェアと冗長プロビジョニングの負担が増す。(Source: [[@2025__SC__Characterizing GPU Resilience and Impact on AI - HPC Systems]], [[@2025__SOSP__Robust LLM Training Infrastructure at ByteDance]]) - **「信頼性の床」は運用側の故障管理・ノード健全性が埋める——埋め方は「真の故障の特定」と「過剰排除の抑制」の同時最適化に収束する**: GPU Resilience が示すハードウェアの低い床(メモリ MTBE の世代逆行・5% オーバープロビジョニング)を、運用層が二方向から埋めにいく。[[@2025__SC__Fine-grained Automated Failure Management for Extreme-Scale GPU Accelerated Systems]](Aurora 63,744 GPU)は集中型メタデータベースに相関イベント履歴を蓄え、頻度ベースの multi-strike 判定でノード単位でなく GPU 単位まで修復粒度を下げることで、過剰なノードドレインを抑えつつ真のハードウェア故障を特定し、MTTR を手動比最大 84 倍短縮する。[[@2026__MLSys2026__Guard - Scalable Straggler Detection and Node Health Management for Large-Scale Training]](Amazon、数千 GPU)は、NCCL テスト・GPU バーンインを通過しながら性能を暗黙に劣化させる**グレーノード**(fail-slow)という床の別側面——XID に現れず数週間沈黙残存する劣化——を、オンライン監視で検知しオフラインノードスイープ(現実的ワークロード再現の 1–2 時間検証)で隔離して、MTTF を 2.5 倍・人的介入間隔を 11 倍改善する。GPU Resilience が「XID に現れる急性故障」を物理層から特徴づけたのに対し、Guard は「XID に現れない劣化」を運用層から塞ぐ。床のもう一つの側面は物理部品故障で、[[@2025__APNET__Forewarned is Forearmed - Joint Prediction and Classification of Optical Transceiver Failures in Large-Scale LLM Training Clusters]](OptProphet)は光トランシーバー故障を F1 0.884・平均 1.11 日前に予測し、床が崩れる前に先回りで補強する方向を示す。(Source: [[@2025__SC__Fine-grained Automated Failure Management for Extreme-Scale GPU Accelerated Systems]], [[@2026__MLSys2026__Guard - Scalable Straggler Detection and Node Health Management for Large-Scale Training]], [[@2025__SC__Characterizing GPU Resilience and Impact on AI - HPC Systems]], [[@2025__APNET__Forewarned is Forearmed - Joint Prediction and Classification of Optical Transceiver Failures in Large-Scale LLM Training Clusters]]) - **AI 時代の冗長機構は「グレイ障害」を内蔵する**: [[@2024__USENIX ATC__SuperBench - Improving Cloud AI Infrastructure Reliability with Proactive Validation]] は、HBM の行リマップ・GPU CUDA コア冗長・IB 過剰プロビジョン uplink などの冗長機構がインシデント直前まで劣化を覆い隠す「グレイ障害」を生むことを Azure A100 の本番データで示す。GPU Resilience の「メモリ回復機構が容量増に追いつかない」(spare row 512 行固定)構造的限界を、運用層の検出可能性という観点から補強する観測である——HBM 行リマップは「機能する」が、機能した結果として劣化が見えなくなる。冗長は信頼性の床を底上げするが、運用側にはプロアクティブ検証([[プロアクティブ検証]])が無いと床の下降を捕えられない。(Source: [[@2024__USENIX ATC__SuperBench - Improving Cloud AI Infrastructure Reliability with Proactive Validation]], [[@2025__SC__Characterizing GPU Resilience and Impact on AI - HPC Systems]]) - **障害の host-level Pareto 集中は、GPU Resilience が特徴づけた「XID に現れる急性故障」の統計的骨格を補強する——"lemon nodes" は物理層の弱点分布の運用層への現れである**: [[@2026__arXiv__Don't Predict, Prioritize - Rethinking GPU Reliability Assessment]](HeaRank)は、全ホストの 10% 未満が Double Bit Error・GPU Lost 障害の 30% 超を占め、この集中が四半期・90 日ローリング窓を通じて安定的(24〜33%)であることを χ² 検定(p ≪ 10^-10)でランダム性を棄却して示した。GPU Resilience の「A100 では GSP/PMU/MMU/NVLink が弱点、H100 ではメモリが弱点」という**コンポーネント単位**の弱点分布(横断的知見「A100 単体ではメモリより非メモリハードウェアが弱点」)と、HeaRank の**ホスト単位**の Pareto 集中は、異なる粒度で同じ現象——ハードウェアの信頼性が均一でなく少数の脆弱な個体・コンポーネントに集中する——を捉えている。「lemon nodes」(一度障害を起こしたホストは再発しやすい、再発間隔が短くクラスタリングする、Figure 8)という運用上の経験則は、GPU Resilience が定量化した物理層の弱点分布(spare row 固定・GSP/PMU 脆弱性)が個体差として現れた結果と解釈できる。(Source: [[@2026__arXiv__Don't Predict, Prioritize - Rethinking GPU Reliability Assessment]], [[@2025__DSN-W__Characterizing Modern GPU Resilience and Impact in HPC Systems - A Case Study of A100 GPUs]]) - **「信頼性の床」を埋める運用層の対処法に、リスクランキングという新しい第三の道が加わる**: 既存の横断的知見は、真の故障特定と過剰排除抑制の同時最適化([[@2025__SC__Fine-grained Automated Failure Management for Extreme-Scale GPU Accelerated Systems|Fine-grained]])と fail-slow 検知([[@2026__MLSys2026__Guard - Scalable Straggler Detection and Node Health Management for Large-Scale Training|Guard]])という 2 経路を整理してきたが、HeaRank はこれらとは異なる第 3 の経路——**精密な時間予測を放棄しリスク順位だけを出す**——を提示する。GPU Resilience が示す「GPU エラーはほぼ 100% ジョブ失敗に直結する」という事実に対し、HeaRank は個々のエラー発生タイミングを当てるのではなく、事前にリスクの高いノードを避ける(スケジューラが高優先度ジョブを低リスク GPU に配置)ことで、5% オーバープロビジョニングという経済的冗長コストを別角度から削減しうる。6 ヶ月の本番展開で月あたり約 5 万ドルの GPU 時間節約を試算しており、Fine-grained の MTTR 短縮・Guard の MTTF 改善と並ぶ、定量化された経済効果を持つ運用層対処の一例となる。(Source: [[@2026__arXiv__Don't Predict, Prioritize - Rethinking GPU Reliability Assessment]], [[@2025__SC__Fine-grained Automated Failure Management for Extreme-Scale GPU Accelerated Systems]], [[@2026__MLSys2026__Guard - Scalable Straggler Detection and Node Health Management for Large-Scale Training]]) ## 未解決の問い - ハードウェアの「信頼性の床」(メモリ MTBE の世代逆行)を運用側が埋めるコスト(GPU Resilience の 5% オーバープロビジョニング)と、故障管理の高度化(Guard の MTTF 2.5 倍、Fine-grained の MTTR 84 倍短縮)はどこで釣り合うか。運用層の改善は冗長プロビジョニング率をどこまで下げられるか。 - XID/RAS ログに現れる急性故障(GPU Resilience が特徴づけた床)と、XID に現れない fail-slow(Guard のグレーノード、ByteRobust の SDC)とは、同じ「床」の連続体か別物か。両者を統合計測する単一の健全性指標(ステップ時間を一次シグナルにする Guard の流儀)で床全体を測れるか。 - メモリ容量増(HBM)に比例しない回復機構(spare row 512 固定)を、世代をまたいでどう設計すべきか。Row Remapping 以外の機構(より細粒度の error containment)で容量スケールに追従できるか。 - A100 で GSP/PMU SPI が弱点だった問題は H100/GH200 でどこまで設計的に解決されたのか。SC 2025 版は GSP 3 件・PMU SPI 0 件を示すが、観測期間差と統合 GH200 固有性を除いたとき、ディスクリート H100 や B200 世代でも同じ改善が続くか。 - GPU 内エラー伝播確率(PMU SPI→MMU 0.88、GSP→エラー状態 0.99)を、ジョブ退避の先回り型トリガに使えるか([[障害予測]])。伝播の途中で介入すればジョブ失敗を避けられるか。 - ディスクリート H100 と統合 GH200(Grace Hopper)でレジリエンスはどう異なるか。NVLink-C2C 等の新インターコネクトは新たな故障モードを持ち込むか。 - 単一データセンター(Delta)の知見は冷却・電源等の環境要因をどこまで一般化できるか。SDC(silent data corruption、ByteRobust の EUD recall 70%)のような XID に現れない故障は本特徴づけの外で、どう統合計測するか。 - HeaRank の Pareto 集中("上位 10% ホストが 24〜33% の障害を占める")は、GPU Resilience が特徴づけたコンポーネント別弱点(GSP・PMU・NVLink・メモリ)のどれに主に起因するのか。HeaRank 自身のアブレーション(recurrence/recency が最も寄与)は host-level の再発パターンを見るのみで、コンポーネントレベルの原因分解は行っていない。両者を突き合わせれば「どの弱点コンポーネントを持つホストが lemon node になりやすいか」を特定できるか。 ## 関連 - ソース: [[@2026__arXiv__Don't Predict, Prioritize - Rethinking GPU Reliability Assessment]] / [[@2024__USENIX ATC__SuperBench - Improving Cloud AI Infrastructure Reliability with Proactive Validation]] / [[@2025__DSN-W__Characterizing Modern GPU Resilience and Impact in HPC Systems - A Case Study of A100 GPUs]] / [[@2025__SC__Characterizing GPU Resilience and Impact on AI - HPC Systems]] / [[@2025__SOSP__Robust LLM Training Infrastructure at ByteDance]] / [[@2025__SC__Fine-grained Automated Failure Management for Extreme-Scale GPU Accelerated Systems]] / [[@2026__MLSys2026__Guard - Scalable Straggler Detection and Node Health Management for Large-Scale Training]] / [[@2025__APNET__Forewarned is Forearmed - Joint Prediction and Classification of Optical Transceiver Failures in Large-Scale LLM Training Clusters]] - 概念: [[GPUクラスタ運用]](fault landscape) / [[耐障害LLM訓練]](信頼性の床を補償) / [[障害予測]](エラー伝播の先回り・予測からランキングへの再定式化) / [[障害緩和]](multi-strike/段階的緩和) / [[ストラグラー]](グレーノード=fail-slow) / [[グレイ障害]] / [[プロアクティブ検証]] / [[LLM分散学習]] - エンティティ: [[Delta]] / [[NCSA]] / [[University of Illinois Urbana-Champaign]] / [[Shengkun Cui]] / [[Ravishankar K. Iyer]] / [[IBM Research]] / [[Nokia Bell Labs]] / [[Aurora]] / [[Guard]] / [[OptProphet]] / [[Difeng Ma]] / [[StepFun]] - 関連 MOC: [[HPC - MOC]] / [[分散深層学習 - MOC]] ## 出典 - [[@2026__arXiv__Don't Predict, Prioritize - Rethinking GPU Reliability Assessment]](§3.2.1 Pareto 分布・χ² 検定、§3.3 lemon nodes、§6 オンライン展開の経済効果試算) - [[@2025__DSN-W__Characterizing Modern GPU Resilience and Impact in HPC Systems - A Case Study of A100 GPUs]](A100 106 ノード/448 GPU、3 年・12.5M GPU hours、GSP/PMU/MMU/NVLink/メモリ回復、表I/II) - [[@2025__SC__Characterizing GPU Resilience and Impact on AI - HPC Systems]](§1 Introduction, §4.1/§4.2 コンポーネント別・MTBE・伝播, §5 ジョブ影響・オーバープロビジョニング, 表1/表2) - [[@2025__SOSP__Robust LLM Training Infrastructure at ByteDance]](§2.2 障害分布, §9 SDC/EUD) - [[@2025__SC__Fine-grained Automated Failure Management for Extreme-Scale GPU Accelerated Systems]](集中型メタDB・multi-strike 修復ポリシー・GPU 単位の細粒度修復・MTTR 手動比最大 84 倍短縮) - [[@2026__MLSys2026__Guard - Scalable Straggler Detection and Node Health Management for Large-Scale Training]](グレーノード=fail-slow、オンライン監視+オフラインノードスイープ、MTTF 2.5 倍・人的介入間隔 11 倍) - [[@2025__APNET__Forewarned is Forearmed - Joint Prediction and Classification of Optical Transceiver Failures in Large-Scale LLM Training Clusters]](光トランシーバー故障予測 F1 0.884・平均 1.11 日前アラーム)