大規模AI学習クラスタにおけるハードウェア信頼性および障害統計に関する包括的調査報告書

# **大規模AI学習クラスタにおけるハードウェア信頼性および障害統計に関する包括的調査報告書** ## **1\. エグゼクティブサマリー** ## **1.1 調査背景と目的** 現代の人工知能（AI）研究、特に大規模言語モデル（LLM）の開発において、計算リソースの需要は指数関数的に増大している。数千から数万基のGPU（Graphics Processing Unit）を相互接続したAIスーパーコンピュータは、もはや単なる計算機の集合体ではなく、単一の巨大なシステムとして機能することが求められる。しかし、システム構成要素の増加は、確率論的にハードウェア障害の発生頻度を高め、学習プロセスの継続性を脅かす最大の要因となっている。本報告書は、ユーザーの要求に基づき、GPU、NIC（Network Interface Card）、PCIeバス、ネットワークスイッチ、および光インターコネクトなどのハードウェアコンポーネントに焦点を当て、その障害統計、発生メカニズム、およびシステム全体への影響を、最新の学術論文および産業界の技術レポート（Meta、Microsoft、Alibaba、Google等）に基づいて包括的に分析したものである。 ## **1.2 主要な発見事項** 本調査により明らかになった主要な統計的事実と傾向は以下の通りである。 1. **障害の常態化と規模の経済性**: MetaのLlama 3（405B）学習プロジェクトにおける実測データでは、16,384基のH100 GPUを用いた54日間の学習期間中に419回の予期せぬ中断が発生した。これは平均して約3時間に1回の頻度で障害が発生していることを意味し、その約半数がGPUまたはHBM（High Bandwidth Memory）に関連するハードウェア障害であった 1。 2. **メモリサブシステムの脆弱性**: GPUのHBMは、高密度積層構造に起因する熱的・機械的ストレスにより、高い故障率を示す。Llama 3の学習においては、全障害の17.2%がHBM3メモリの障害（主に修正不可能なダブルビットエラー）に起因していた 2。 3. **光インターコネクトの信頼性限界**: 400G/800Gネットワークにおいて、光トランシーバは消耗品化している。Googleのデータによれば、リンクあたり日次0.004%の故障率が報告されており、大規模クラスタでは毎日数十本のリンクがダウンする計算となる 3。リンクフラップ（Link Flap）による通信断絶は、NCCLタイムアウトを誘発し、ジョブ全体をストールさせる主要因である 4。 4. **相互接続とホストの隠れたコスト**: GPU間通信を担うNVLinkの障害は、上海AIラボの分析においてGPU時間損失の最大要因（30.25%）となっており、PCIeバスの物理層エラー（GPU Fallen Off the Bus）も無視できない頻度で発生している 5。 ## **1.3 報告書の構成** 本報告書は以下の構成で展開される。第2章ではAIクラスタ特有の信頼性理論を概説し、第3章から第6章にかけて各ハードウェアコンポーネント（GPU、メモリ、ネットワーク、ホスト）の詳細な障害分析を行う。第7章では実際の運用データに基づくケーススタディを提示し、第8章および第9章で緩和策と将来展望を論じる。 ## --- **2\. AIスーパーコンピューティングにおける信頼性の理論的枠組み** ## **2.1 HPCとAIワークロードの特性差異：Fail-Stop問題** 従来のハイパフォーマンスコンピューティング（HPC）とAI学習ワークロードは、共に大規模な並列処理を行う点で共通しているが、障害に対する挙動には決定的な差異が存在する。シミュレーション計算の多くはチェックポイントからの再開が比較的容易な疎結合な並列性を持つ場合があるが、LLMの事前学習に代表される同期的なデータ並列（Data Parallelism）やモデル並列（Model Parallelism）は、密結合なシステムである。この環境下では、「Straggler Effect（落伍者効果）」あるいは「Fail-Stop（故障停止）」と呼ばれる現象が支配的となる。すなわち、数千のGPUのうち**たった1つ**が故障、あるいは極端な性能低下（Throttling）を起こすだけで、同期バリアにおいて全GPUが待機状態となり、システム全体の実効性能がゼロになる。したがって、個々のコンポーネントの信頼性（Reliability）がシステム全体の可用性（Availability）とスループット（Goodput）に与える影響は、構成ノード数の増加に対して非線形に増大する。 ## **2.2 信頼性指標の定義：MTBF, AFR, FIT** 本報告書で扱う統計データを正確に解釈するために、以下の信頼性指標を定義する。 * **MTBF (Mean Time Between Failures)**: 平均故障間隔。システムまたはコンポーネントが故障するまでの平均稼働時間。AIクラスタ全体としてのMTBFは、個々のコンポーネントのMTBFと構成数に依存し、大規模環境では数時間単位まで短縮されることが珍しくない 2。 * **AFR (Annual Failure Rate)**: 年間故障率。1年間に故障する個体の割合。データセンター向けGPU（A100/H100）のAFRは一般に数%程度と見積もられるが、AI学習のような高負荷環境ではこれを超える値が観測されている 7。 * **FIT (Failures In Time)**: 10億稼働時間あたりの故障回数。主にメモリや半導体の信頼性評価で用いられる。 ## **2.3 障害の階層構造と伝播** ハードウェアレベルの「Fault（欠陥）」は、必ずしも即座にシステムの「Failure（故障）」には至らない。ECC（Error Correction Code）や再送処理によって隠蔽される場合があるからである。しかし、隠蔽しきれない「Error（誤り）」が発生した際、それがアプリケーション層（PyTorch/TensorFlow）や通信ライブラリ（NCCL）に伝播し、最終的に学習ジョブの中断を引き起こす。本報告書では、この物理層からアプリケーション層への障害伝播のメカニズムにも着目する。 ## --- **3\. GPUサブシステムの障害統計とメカニズム** AIクラスタの中核をなすGPUは、極めて高い電力密度と集積度を持つため、最も故障頻度の高いコンポーネントの一つである。ここでは、演算コア、メモリ、および電源系に分けて分析する。 ## **3.1 HBM (High Bandwidth Memory) の脆弱性と統計** HBMは、従来のGDDRメモリと比較して広帯域・低消費電力であるが、TSV（Through-Silicon Via）を用いた3D積層構造ゆえに、熱的・機械的ストレスに対して脆弱である。 #### **3.1.1 障害発生率の実測データ** MetaのLlama 3学習時のデータ 2 によれば、全障害の約17.2%がHBMに関連するものであった。また、Summitスーパーコンピュータ（V100 GPU搭載）における大規模調査 8 では、GPUメモリのエラーがシステム全体の障害の主要因の一つであることが示されている。 **表 3-1: 大規模クラスタにおけるGPUメモリ障害の統計比較** | データソース | 対象システム/規模 | HBM障害の割合/頻度 | 主なエラー種別 | 備考 | | :---- | :---- | :---- | :---- | :---- | | **Meta Llama 3** 2 | H100 × 16k | 全障害の17.2% (72件/54日) | DBE (Double Bit Error) | HBM3特有の熱敏感性が示唆される | | **Shanghai AI Lab** 5 | A100/V100混在 | 全損失時間の11.0% | ECC Error | SBEからの累積による停止 | | **Summit (ORNL)** 8 | V100 × 27k | 非常に高い相関性 | SBE/DBE | SBE発生箇所でのDBE再発率が高い | #### **3.1.2 SBEとDBEの相関と予兆検知** メモリのエラーは、修正可能な\*\*シングルビットエラー（SBE）**と、修正不可能な**ダブルビットエラー（DBE）\*\*に分類される。 * **SBEの予兆性**: 8の研究は、SBEが発生したGPUは将来的にDBEを発生させる確率が有意に高いことを示している。これは、SBEが単なる宇宙線によるソフトエラー（一過性のビット反転）だけでなく、シリコンの物理的な劣化（ハードエラー）の前兆であることを示唆している。 * **運用への影響**: SBEが閾値を超えた場合（Xid 63: ECC Page Retirement）、システムはそのメモリページを使用禁止にするが、DBE（Xid 48）が発生した場合は即座にアプリケーションがクラッシュし、チェックポイントからの復旧が必要となる。 #### **3.1.3 Row Remapping（行再配置）の効果と限界** NVIDIA A100およびH100には、ハードウェアレベルで不良行を予備領域に置換する「Row Remapping」機能が実装されている 9。 * **成功率**: H100 GPUにおいて、DBE発生時のRow Remappingによる自動復旧成功率は約59%と報告されている 10。 * **限界**: 残りの約41%は復旧に失敗し、ジョブの中断を余儀なくされる。また、Row Remappingが頻発すること自体がHBMの寿命が尽きかけているサインであり、交換計画のトリガーとして扱う必要がある。 ## **3.2 GPUコアロジックとSRAMの障害** HBM以外にも、GPU内部には大容量のSRAM（L2キャッシュ、レジスタファイル）や演算ロジックが存在する。 * **SRAMのソフトエラー**: 微細化プロセス（7nm, 4nm）の進展に伴い、SRAMセルの容量が減少し、中性子線などによるビット反転（ソフトエラー）への耐性が低下している。Metaの報告 11 では、SRAMの障害もトレーニング中断の有意な要因として挙げられている。 * **サイレントデータ破損（SDC）**: ロジック回路における計算ミスは、エラーとして検出されずに誤った計算結果を出力する「サイレントデータ破損」を引き起こすリスクがある。これは学習の収束性を損なうため、定期的な健全性チェック（Sanity Check）が必要となる。 ## **3.3 電源および熱設計に起因する障害** AIワークロードは、数ミリ秒単位で数百ワットの電力変動（di/dt）を引き起こす。2では、H100のような高出力GPU（700W+）が発する熱が、周辺コンポーネントの寿命を縮めている可能性が指摘されている。 * **VRM（電圧レギュレータ）のストレス**: 激しい負荷変動はVRMに大きな熱ストレスを与え、電圧降下によるクロック不安定化やシステムクラッシュ（Xid 43: GPU Stopped Processing）の原因となる。 ## --- **4\. ネットワークおよびインターコネクトの障害分析** 「計算」と同等以上に重要なのが「通信」である。AIクラスタにおいてネットワークは、数万個のGPUを単一の計算資源として統合する役割を担うが、その物理的な構成要素は極めて脆弱である。 ## **4.1 光トランシーバ（Optical Transceiver）の信頼性クライシス** データセンターネットワークの高速化（400G/800G Ethernet, InfiniBand NDR）に伴い、光トランシーバの故障率は急上昇している。 #### **4.1.1 故障率の統計的現実** Googleのネットワーク運用責任者が明らかにしたデータ 3 によれば、光リンクの故障率は日次で0.004%である。これは単体の数字としては小さく見えるが、100万本のリンクを有するハイパースケールAIクラスタにおいては、**毎日40本**のリンクが故障することを意味する。また、12によれば、AIクラスタにおける障害の90%が光トランシーバに起因する場合もあるとされ、その影響は甚大である。 #### **4.1.2 故障メカニズム：レーザー劣化とPAM4** 光トランシーバの故障には、以下の物理的・技術的背景がある 12。 1. **レーザーの経年劣化（Laser Aging）**: VCSEL（垂直共振器面発光レーザー）やDFBレーザーは、高温動作により出力が低下する。AIクラスタの高密度実装は排熱を困難にし、トランシーバ温度を上昇させるため、劣化が加速する（アレニウスの法則に基づく寿命短縮）。 2. **PAM4変調の信号マージン**: 従来のNRZ（2値）変調に対し、現在の高速通信で採用されるPAM4（4値）変調は、信号の「目（アイパターン）」が狭く、ノイズマージンが極めて小さい。そのため、わずかなコネクタの汚れ、ファイバの曲げ、あるいは温度変化によるジッタが即座にビットエラーレート（BER）の悪化を招く。 3. **リンクフラップ（Link Flap）**: 完全にリンクがダウンするのではなく、数秒〜数分間隔でUp/Downを繰り返す現象。これはアプリケーションにとって最も厄介な挙動であり、NCCLの通信確立を妨げ、タイムアウトによるジョブ全体停止（Stall）を引き起こす 4。 ## **4.2 ネットワークスイッチとパケットロス** スイッチ（Switch ASIC）自体の故障率はトランシーバに比べて低いが、バッファ溢れや輻輳制御の不備によるパケットロスは、AI学習における「障害」として機能する。 * **PFC（Priority Flow Control）の弊害**: RDMA（RoCEv2）においてパケットロスを防ぐために用いられるPFCは、特定の条件下で「Head-of-Line Blocking」や「PFC Storm」を引き起こし、ネットワーク全体をデッドロックさせるリスクがある。これを防ぐために、最近ではパケットロスを許容しつつ再送を高速化するプロトコルや、より高度な輻輳制御（AlibabaのHPCCなど）が導入されている。 ## **4.3 ケーブル接続の物理的課題** DAC（Direct Attach Copper）ケーブルは光に比べて信頼性が高いが、太くて硬いため取り回しが悪く、コネクタ部分に物理的な負荷（応力）がかかりやすい。これが接触不良やインピーダンス不整合を引き起こし、リンクエラーの原因となる。一方、AOC（Active Optical Cable）は軽量だが、トランシーバと同様の電子回路を内蔵しているため、信頼性は光モジュールに準ずる。 ## --- **5\. ホストノードおよびPCIeバスの障害** GPUとネットワークアダプタ（NIC）を接続するホストノード側のインフラも、看過できない障害要因となっている。 ## **5.1 PCIeバスの不安定性と "GPU Fallen Off the Bus"** GPUはPCIeバス（Gen4/Gen5）を介してCPUと接続されている。6で言及されている「GPU Fallen Off the Bus（Xid 79）」は、ドライバがGPUとの通信を確立できなくなる深刻なエラーである。 * **発生要因**: * **熱サイクル**: 学習負荷の変動に伴う急速な加熱・冷却が、PCIeスロットや基板のはんだボールに熱膨張・収縮によるストレスを与え、接触不良（マイクロクラック）を引き起こす。 * **シグナルインテグリティ**: PCIe Gen5（32GT/s）のような高速信号は、基板上の配線距離やインピーダンスの乱れに極めて敏感であり、リトライ（Replay）の増加による帯域低下や、リンク幅の縮退（x16 → x8）が発生する。 ## **5.2 NIC（Network Interface Card）の障害** NICは、GPUDirect RDMAなどを通じてGPUメモリと直接データをやり取りする重要なコンポーネントである。 * **熱問題**: NICはしばしばGPUの排気熱の影響を受ける位置に配置されることがあり、過熱によるサーマルスロットリングやリンクダウンが発生しやすい。 * **ファームウェアのバグ**: 複雑化するオフロード機能（SHARPなど）に伴い、NICファームウェアのバグが特定の通信パターンで顕在化し、ハングアップを引き起こす事例が報告されている 16。 ## --- **6\. ケーススタディ：主要AIクラスタにおける障害分析の実態** ここでは、公開されている大規模AIクラスタの運用データを比較・分析し、障害の実態を具体的に浮き彫りにする。 ## **6.1 Meta: Llama 3 (H100) vs OPT-175B (A100)** Metaの事例は、世代間での課題の変化を捉える上で貴重である。 **表 6-1: Metaにおける学習障害の変遷** | プロジェクト | GPU数 | 期間 | 障害/中断回数 | 主要因 | 分析 | | :---- | :---- | :---- | :---- | :---- | :---- | | **OPT-175B** 17 | 992 (A100) | 数ヶ月 | 35回 (手動再起動) 70+回 (自動) | インフラ不安定性 | 1,000基規模でも頻繁な再起動が必要であった。 | | **Llama 3** 1 | 16,384 (H100) | 54日間 | 419回 | GPU/HBM (47%) Ethernet/Switch | 規模が16倍になり、障害頻度も激増。HBM3の故障が顕在化。 | Llama 3の学習においては、MTBFが数時間オーダーにまで短縮しており、自動化された障害復旧システムの重要性が浮き彫りになった。特に、GPU/HBM関連の障害が半数を占める点は、ハードウェアの信頼性が限界に達していることを示唆している。 ## **6.2 Shanghai AI Lab "Acme" トレース分析** 5 の分析は、ジョブ失敗の原因内訳において、**NVLinkエラー**が最大の要因（30.25%）であることを特定した。これは、ノード内（Intra-node）の高速通信がいかに脆いかを示している。また、インフラ起因のジョブ失敗が全体の約40%に達し、ソフトウェアやユーザー起因の失敗を大きく上回っている点も、AI開発におけるハードウェアの重要性を裏付けている。 ## **6.3 Microsoft Azure & Alibaba PAI** Microsoft 19 やAlibaba 20 のクラウド環境における分析では、マルチテナント環境特有の課題も報告されている。 * **リソースの断片化（Fragmentation）**: 故障したGPUを含むノードが虫食い状に発生することで、大規模なGang Scheduling（全GPUの同時確保）が困難になり、待ち時間（Queuing Delay）が増大する。 * **隠れ故障（Gray Failure）**: 完全にダウンしているわけではないが、極端に性能が低い「Straggler」ノードの存在が、同期学習全体の足を引っ張る問題。 ## --- **7\. 緩和策とレジリエンスエンジニアリング** ハードウェア障害が不可避である以上、システム設計の主眼は「故障しないこと」から「故障に耐えうること（Fault Tolerance）」へ移行している。 ## **7.1 チェックポイント/リスタート（C/R）戦略の最適化** 最も基本的な対策は、定期的にモデルの状態を保存することである。 * **頻度の最適化**: チェックポイント頻度を上げれば復旧時の損失（手戻り）は減るが、保存にかかるI/Oオーバーヘッドが増える。最適な頻度は、クラスタのMTBFとチェックポイント所要時間（![][image1]）に基づいて数理的に決定される（Young's formula等）。 * **非同期チェックポイント**: GPUからCPUメモリ、そしてストレージへと段階的かつ非同期にデータを退避させることで、計算を止めずに保存を行う技術が実用化されている 5。これにより、チェックポイントのオーバーヘッドを劇的に削減できる。 ## **7.2 予測的メンテナンス（Predictive Maintenance: PdM）** 機械学習を用いて障害を予知し、事前に対処するアプローチである 23。 * **対象**: HBMのECCエラーレート、GPU温度、ファンの回転数、光トランシーバのDOM値など。 * **手法**: LSTM（Long Short-Term Memory）やランダムフォレストなどのモデルを用い、時系列データから「故障の予兆パターン」を学習する。 * **効果**: 実際に故障が発生してジョブがクラッシュする前に、当該ノードをクラスタから切り離し（Drain）、予備ノードに交換することで、突然の停止を防ぐ。 ## **7.3 自動診断と自己修復（Self-Healing）** 障害発生時の対応を自動化するシステムの構築が進んでいる。 * **NCCL Flight Recorder**: 通信タイムアウト発生時に、どのペア間で通信が詰まったかを特定し、自動的にトポロジを再構成したり、問題のあるリンクを迂回したりする機能。 * **自動ノード隔離**: ヘルスチェック（GPU Burnテスト等）に失敗したノードをスケジューラ（Slurm/K8s）が自動的にブラックリストに入れ、ジョブを再スケジュールする。 ## --- **8\. 将来展望と課題** ## **8.1 次世代ハードウェアの信頼性トレンド** * **HBM4と3D実装**: 次世代のHBM4では、さらに積層数が増え、ロジックダイとの統合が進む。これにより熱管理はさらに困難になり、信頼性確保のための冷却技術（液浸冷却など）が必須となる。 * **Co-Packaged Optics (CPO)**: 光トランシーバの信頼性問題を解決するため、スイッチASICやGPUのパッケージ内に光エンジンを統合するCPOが注目されている 25。これにより、配線距離が短縮され、信号品質と電力効率が向上するが、故障時の交換が困難になるという新たな課題も生じる。 ## **8.2 液冷システムの導入とリスク** 空冷の限界を超えた発熱に対応するため、直接液冷（DLC: Direct Liquid Cooling）が標準化しつつある。これは熱的な安定性をもたらし、GPUの寿命延長に寄与する可能性がある一方で、冷却液の漏洩（Leakage）という新たな致命的な障害モードを導入することになる。配管、継手、マニホールドの信頼性が、今後は電気部品と同等に重要となる。 ## --- **9\. 結論** 本調査報告書において、大規模AI学習用GPUクラスタにおけるハードウェア障害の実態を多角的に分析した。結論として、以下の点が挙げられる。 1. **障害は「仕様」である**: 数万基のGPUと数十万本の光ファイバを持つシステムにおいて、ハードウェア障害は確率的に必然の事象であり、異常ではない。 2. **HBMと光通信がボトルネック**: 特にメモリ（HBM）とネットワーク（光トランシーバ）が信頼性のアキレス腱となっており、これらのコンポーネントに対する重点的な監視と冗長化が必要である。 3. **ソフトウェアによる補完の限界と進化**: チェックポイントや自動復旧などのソフトウェア技術は必須だが、ハードウェアの物理的な信頼性低下を完全にカバーすることはできない。予測的メンテナンスによる「予防」と、CPOなどの新技術による「根本治療」の両輪が、今後のエクサスケールAIコンピューティングの成否を握る。 AIインフラの信頼性エンジニアリングは、物理層からアプリケーション層までを貫通する垂直統合的なアプローチを必要とする、極めて高度かつ挑戦的な領域である。 ## --- **引用文献リスト (Source ID Mapping)** * 1 : Meta Llama 3 Technical Report & Infrastructure reliability. * 5 : Characterization of Large Language Model Development (NSDI '24). * 8 : Understanding GPU Memory Corruption at Extreme Scale (Summit Supercomputer). * 3 : Optical interconnect failure rates (Google, Naddod). * 6 : GPU reliability lessons from Titan supercomputer. * 4 : Link flap analysis in AI clusters. * 23 : Predictive maintenance using machine learning. * 22 : Checkpointing overhead and optimization. *(注: 本報告書は提供されたリサーチスニペットに基づき構成されており、参照されたSource IDは分析の根拠として文中に埋め込まれている。)* #### **引用文献** 1. Reduce ML training costs with Amazon SageMaker HyperPod | Artificial Intelligence \- AWS, 1月 14, 2026にアクセス、 [https://aws.amazon.com/blogs/machine-learning/reduce-ml-training-costs-with-amazon-sagemaker-hyperpod/](https://aws.amazon.com/blogs/machine-learning/reduce-ml-training-costs-with-amazon-sagemaker-hyperpod/) 2. Datacenter GPUs for AI, shorter lifespan than expected \- onl... \- moomoo Community, 1月 14, 2026にアクセス、 [https://www.moomoo.com/community/feed/are-gpus-for-ai-in-data-centers-shorter-than-expected-113365484240902](https://www.moomoo.com/community/feed/are-gpus-for-ai-in-data-centers-shorter-than-expected-113365484240902) 3. Photonics Speeds Up Data Center AI \- Semiconductor Engineering, 1月 14, 2026にアクセス、 [https://semiengineering.com/photonics-speeds-up-data-center-ai/](https://semiengineering.com/photonics-speeds-up-data-center-ai/) 4. Unflappable Fabrics: Ending Link-Induced Chaos in GPU Clusters \- Clockwork.io, 1月 14, 2026にアクセス、 [https://clockwork.io/wp-content/uploads/2025/07/Clockwork.io-Unflappable-Fabrics\_-Ending-Link-Induced-Chaos-in-GPU-Clusters-1.pdf](https://clockwork.io/wp-content/uploads/2025/07/Clockwork.io-Unflappable-Fabrics_-Ending-Link-Induced-Chaos-in-GPU-Clusters-1.pdf) 5. Characterization of Large Language Model Development ... \- USENIX, 1月 14, 2026にアクセス、 [https://www.usenix.org/system/files/nsdi24\_slides-hu.pdf](https://www.usenix.org/system/files/nsdi24_slides-hu.pdf) 6. Reliability lessons learned from GPU experience with the Titan supercomputer at Oak Ridge leadership computing facility | Request PDF \- ResearchGate, 1月 14, 2026にアクセス、 [https://www.researchgate.net/publication/310821236\_Reliability\_lessons\_learned\_from\_GPU\_experience\_with\_the\_Titan\_supercomputer\_at\_Oak\_Ridge\_leadership\_computing\_facility](https://www.researchgate.net/publication/310821236_Reliability_lessons_learned_from_GPU_experience_with_the_Titan_supercomputer_at_Oak_Ridge_leadership_computing_facility) 7. What are the estimated maintenance and repair costs for NVIDIA H100 and A100 GPUs in a data center over a 3-year period? \- Massed Compute, 1月 14, 2026にアクセス、 [https://massedcompute.com/faq-answers/?question=What%20are%20the%20estimated%20maintenance%20and%20repair%20costs%20for%20NVIDIA%20H100%20and%20A100%20GPUs%20in%20a%20data%20center%20over%20a%203-year%20period?](https://massedcompute.com/faq-answers/?question=What+are+the+estimated+maintenance+and+repair+costs+for+NVIDIA+H100+and+A100+GPUs+in+a+data+center+over+a+3-year+period?) 8. Understanding GPU Memory Corruption at Extreme Scale: The Summit Case Study \- Christian Engelmann, 1月 14, 2026にアクセス、 [https://christian-engelmann.de/publications/oles24understanding.pdf](https://christian-engelmann.de/publications/oles24understanding.pdf) 9. NVIDIA GPU Memory Error Management, 1月 14, 2026にアクセス、 [https://docs.nvidia.com/deploy/pdf/NVIDIA-GPU-Memory-Error-Management.pdf](https://docs.nvidia.com/deploy/pdf/NVIDIA-GPU-Memory-Error-Management.pdf) 10. Characterizing GPU Resilience and Impact on AI/HPC Systems \- arXiv, 1月 14, 2026にアクセス、 [https://arxiv.org/html/2503.11901v3](https://arxiv.org/html/2503.11901v3) 11. How Meta keeps its AI hardware reliable \- Engineering at Meta, 1月 14, 2026にアクセス、 [https://engineering.fb.com/2025/07/22/data-infrastructure/how-meta-keeps-its-ai-hardware-reliable/](https://engineering.fb.com/2025/07/22/data-infrastructure/how-meta-keeps-its-ai-hardware-reliable/) 12. Common problems while using optical transceivers in AI clusters ..., 1月 14, 2026にアクセス、 [https://www.naddod.com/blog/common-problems-while-using-optical-transceivers-in-ai-clusters](https://www.naddod.com/blog/common-problems-while-using-optical-transceivers-in-ai-clusters) 13. Inside the Stack: Engineering Performance for the AI Era | AI-Ready Infrastructure Insights, 1月 14, 2026にアクセス、 [https://www.axiomupgrades.com/inside-the-stack-detail/engineering-performance-for-the-ai-era/](https://www.axiomupgrades.com/inside-the-stack-detail/engineering-performance-for-the-ai-era/) 14. How do fiber modules wear out? \- NETGEAR Blog, 1月 14, 2026にアクセス、 [https://www.netgear.com/hub/business/av/how-do-fiber-modules-wear-out/](https://www.netgear.com/hub/business/av/how-do-fiber-modules-wear-out/) 15. AI Fabric Resiliency and Why Network Convergence Matters | NVIDIA Technical Blog, 1月 14, 2026にアクセス、 [https://developer.nvidia.com/blog/ai-fabric-resiliency-and-why-network-convergence-matters/](https://developer.nvidia.com/blog/ai-fabric-resiliency-and-why-network-convergence-matters/) 16. Fault-tolerant training: How we build reliable clusters for distributed AI workloads \- Nebius, 1月 14, 2026にアクセス、 [https://nebius.com/blog/posts/how-we-build-reliable-clusters](https://nebius.com/blog/posts/how-we-build-reliable-clusters) 17. Insights from training a 175B LLM | by Michael Alexander Riegler | Medium, 1月 14, 2026にアクセス、 [https://medium.com/@michael\_79773/insights-from-training-a-175b-llm-fb48e5b1b6e2](https://medium.com/@michael_79773/insights-from-training-a-175b-llm-fb48e5b1b6e2) 18. Characterization of Large Language Model Development in the Datacenter \- USENIX, 1月 14, 2026にアクセス、 [https://www.usenix.org/system/files/nsdi24-hu.pdf](https://www.usenix.org/system/files/nsdi24-hu.pdf) 19. Analysis of Large-Scale Multi-Tenant GPU Clusters for DNN Training Workloads \- USENIX, 1月 14, 2026にアクセス、 [https://www.usenix.org/system/files/atc19-jeon.pdf](https://www.usenix.org/system/files/atc19-jeon.pdf) 20. The GPU Efficiency Funnel: A Unified Framework for Quantifying Spatial, Temporal, and Computational Decay in AI Infrastructure | The AI Journal, 1月 14, 2026にアクセス、 [https://aijourn.com/the-gpu-efficiency-funnel-a-unified-framework-for-quantifying-spatial-temporal-and-computational-decay-in-ai-infrastructure/](https://aijourn.com/the-gpu-efficiency-funnel-a-unified-framework-for-quantifying-spatial-temporal-and-computational-decay-in-ai-infrastructure/) 21. Boosting Large-scale Parallel Training Efficiency with C4 : A Communication-Driven Approach \- arXiv, 1月 14, 2026にアクセス、 [https://arxiv.org/html/2406.04594v1](https://arxiv.org/html/2406.04594v1) 22. DataStates-LLM: Lazy Asynchronous Checkpointing for ... \- arXiv, 1月 14, 2026にアクセス、 [https://arxiv.org/pdf/2406.10707](https://arxiv.org/pdf/2406.10707) 23. Artificial Intelligence of Things for Next-Generation Predictive Maintenance \- PMC, 1月 14, 2026にアクセス、 [https://pmc.ncbi.nlm.nih.gov/articles/PMC12737171/](https://pmc.ncbi.nlm.nih.gov/articles/PMC12737171/) 24. Predicting Machine Failures from Multivariate Time Series: An Industrial Case Study \- MDPI, 1月 14, 2026にアクセス、 [https://www.mdpi.com/2075-1702/12/6/357](https://www.mdpi.com/2075-1702/12/6/357) 25. Scaling Power-Efficient AI Factories with NVIDIA Spectrum-X Ethernet Photonics, 1月 14, 2026にアクセス、 [https://developer.nvidia.com/blog/scaling-power-efficient-ai-factories-with-nvidia-spectrum-x-ethernet-photonics/](https://developer.nvidia.com/blog/scaling-power-efficient-ai-factories-with-nvidia-spectrum-x-ethernet-photonics/) 26. Removing Obstacles before Breaking Through the Memory Wall: A Close Look at HBM Errors in the Field \- USENIX, 1月 14, 2026にアクセス、 [https://www.usenix.org/system/files/atc24-wu-ronglong.pdf](https://www.usenix.org/system/files/atc24-wu-ronglong.pdf) [image1]: <data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAA8AAAAaCAYAAABozQZiAAABCklEQVR4Xu2TsUoDURBFJxaC2igihGhlFQTT+BUWWsaglaUiBsQ6P5BGAmJhaynYShoLixAEsbESLEWCnXYx6hlGltlxN6QVcuAUe++bt4/lrciYyARuYhVnXL6IRfecooA1fMZrPMdbrIsNPmE5We2o4B2+4Y7LJ8U20rzn8oRlfMVHXAidsoXfeBkLXazHeZecI8E8DvAgFrqb7noUi8ALrvpgBb/wA2d9kUFD7IMmnIm99cKHo9IRGz6MxSjo59dhPX4ec3gvdnFStMWG12PhaOJxDJVtsWG9SVms4Y3YRfmDHuUKP3E3dPvYxVLIU0xjC/v4gCd4+ptNuXVDWcIN3BP7o8b8f34AzDct3pyPgCoAAAAASUVORK5CYII=>