@2025__SC__Fine-grained Automated Failure Management for Extreme-Scale GPU Accelerated Systems

# Fine-grained Automated Failure Management for Extreme-Scale GPU Accelerated Systems Navigation: [[HPC - MOC]] > [!abstract] 概要 > ハイパフォーマンスコンピューティング(HPC)システムの規模が拡大するにつれ、システム全体のハードウェア故障率も上昇している。大規模 HPC 設備の過去データはこの傾向を裏づけ、過去10年で平均故障間隔(MTBF)が着実に減少してきたことを示す。AI/ML 訓練に関する近年の研究も、将来の GPU 加速システムで MTBF の低下が続くと予測している。MTBF が減るほど平均復旧時間(MTTR)が重要となり、効率的な回復戦略の必要性が高まる。本論文は、故障統計に基づくリアルタイムの意思決定を通じて MTTR を最小化する自動故障管理システムを提示する。主な貢献は、相関イベントを含むイベント履歴を分析する集中型メタデータベース、きめ細かいマルチストライク修復ポリシー、自動回復フレームワークの3点である。本システムは Aurora スパコンに導入され、手動保守と比較して MTTR を最大84倍短縮することを実証した。この改善は大幅なコスト削減とダウンタイムの減少につながる。 ## 概要本論文は、エクサスケール級の [[GPUクラスタ運用|GPU 加速システム]](Aurora スパコン)におけるハードウェア故障の管理を自動化するシステムを提案する。故障統計に基づくリアルタイムの意思決定、集中型メタデータベースによる履歴分析、きめ細かい修復ポリシーを組み合わせ、平均復旧時間(MTTR)を大幅に短縮してシステム可用性を高める。発表や関連研究では本フレームワークの一部が [[StabilityDB]] とも言及される。著者所属は [[Intel Corporation]] と [[RIKEN Center for Computational Science]] であり、検証は [[Argonne National Laboratory]] の [[Aurora]] 上で行われた。 ## 論文情報 - タイトル: Fine-grained Automated Failure Management for Extreme-Scale GPU Accelerated Systems - 著者: [[Yonatan Levitt]], [[Richard Barella]], [[Sam Zeltner]], [[Tom Musta]], [[Lance Cheney]], [[Gustavo Espinosa]], [[Olivier Franza]], [[Balazs Gerofi]] - 所属: [[Intel Corporation]], [[RIKEN Center for Computational Science]] - 会議: SC '25(The International Conference for High Performance Computing, Networking, Storage and Analysis) - 発表年: 2025 - URL: https://dl.acm.org/doi/10.1145/3712285.3759883 ## 問題設定 HPC システムの規模が拡大するにつれてハードウェアの故障率は上昇し、平均故障間隔(MTBF)は減少傾向にある。特に AI/ML ワークロード向けの GPU 加速システムでこの傾向は顕著である([[GPUレジリエンス]])。従来の人間による手動の診断や、ノード全体といった粗い粒度での障害対応では、平均復旧時間(MTTR)が長くなり、システム全体の稼働率を大きく損なうことが課題であった。入力データとしては、システム全体の RAS(Reliability, Availability, Serviceability)ログ、ジョブスケジューラのログ、環境センサーデータなどが必要となる。 ## 提案手法著者らは MTTR を最小化する自動故障管理システム(関連研究や発表では [[StabilityDB]] とも言及されるフレームワークの一部)を提案する。中核は次の3要素である。 1. **集中型メタデータベース**: 過去のイベント履歴や相関イベント(同じ場所で繰り返されるエラーなど)を蓄積・分析する。これにより、単発のイベントへの反応にとどまらず履歴に基づく統計的な判断が可能になる([[根本原因分析]])。 2. **きめ細かい修復ポリシー(fine-grained / multi-strike policy)**: 障害が発生した際、単にノードをオフラインにするのではなく、障害の種類や頻度(「ストライク」制)に基づいて、リセット・分離・特定 GPU のみの切り離しといった柔軟な対応を決定する([[障害緩和]])。 3. **自動回復フレームワーク**: 診断から復旧処置の実行までを自動化し、人間の介入を最小限に抑える。 ## 新規性最大規模のスパコンである [[Aurora]](63,744 基の GPU 搭載)で実際に運用・実証した点に大きな新規性がある。従来手法が単一の故障イベントに対して反応的であったのに対し、本手法は履歴データを用いた統計的アプローチ(multi-strike policy など)を取り入れ、過剰なノードドレイン(切り離し)を防ぎつつ真のハードウェア故障を特定する精度を高めている。また、ノード単位ではなくより細かい粒度での管理を実現している点も特徴である([[Fault Localization]])。 ## 実験設定実証評価は [[Argonne National Laboratory]] の [[Aurora]] スパコン上で実施された。 - データセット: Aurora の運用データ(RAS ログ、メンテナンスログなど)。 - 評価指標: 平均復旧時間(MTTR)、手動対応との比較における時間短縮倍率、システム可用性の向上度合い。 ## 実験結果 Aurora への導入の結果、手動による保守プロセスと比較して MTTR を最大で **84倍**短縮することに成功した。これによりシステム管理者の負担が大幅に軽減されるとともに、大規模計算資源のダウンタイムが削減され、運用コストの抑制と科学技術計算のスループット向上に寄与している。 ## 考察 MTBF が低下し続ける将来の超大規模 GPU システムにおいて、MTTR の短縮は可用性を左右する第一級の要因となる。本手法は、履歴と相関イベントを蓄える集中型メタデータベースを土台に、修復の粒度を GPU 単位まで下げ、頻度ベースの multi-strike 判定で「過剰排除」と「見逃し」のトレードオフを調停する。これは AI/ML 訓練クラスタの耐障害設計([[耐障害LLM訓練]])と同じ問題意識を、HPC 運用の RAS 文脈で具体化したものと位置づけられる。 ## 強み・弱点 - 強み: 世界最大級の実機 Aurora(63,744 GPU)での実導入・実証という極めて高い外的妥当性。手動比最大84倍という大きな MTTR 改善。ノード単位より細かい粒度の修復による無駄なドレインの抑制。 - 弱点・留意点: 本ノートの一次資料は既存ノートの要約であり、原論文(ペイウォール)本文は未取得。multi-strike の具体的な閾値設計、84倍という改善が代表値か最良値かの分布、相関イベント検知の手法詳細、他システムへの一般化可能性などは要約の範囲では確認できない。