2025__SC__Fine-grained Automated Failure Management for Extreme-Scale GPU Accelerated Systems

## Memo ![[Pasted image 20251203103951.png]] ![[Pasted image 20251203104029.png]] ## Memo with LLM ### 論文情報 - **論文のタイトル**: Fine-grained Automated Failure Management for Extreme-Scale GPU Accelerated Systems - **著者と所属**: Yonatan Levitt, Richard Barella, Sam Zeltner, Tom Musta, Lance Cheney, Gustavo Espinosa, Olivier Franza, Balazs Gerofi (Intel Corporation, RIKEN Center for Computational Science) - **カンファレンス/ジャーナル名**: SC '25 (The International Conference for High Performance Computing, Networking, Storage and Analysis) - **発表年**: 2025 ### 論文概要本論文では、エクサスケール級のGPU加速システム（Auroraスーパーコンピュータ）におけるハードウェア故障の管理を自動化するシステムを提案しています。故障統計に基づくリアルタイムの意思決定、集中型メタデータベースによる履歴分析、およびきめ細やかな修復ポリシーを組み合わせることで、平均復旧時間（[[MTTR]]）を大幅に短縮し、システムの可用性を向上させる手法について論じています。 ### 詳細解説 #### 問題設定 HPCシステムの規模が拡大するにつれ、ハードウェアの故障率は上昇し、平均故障間隔（MTBF）は減少傾向にあります。特にAI/MLワークロード向けのGPU加速システムではこの傾向が顕著です。従来の人間による手動の診断や粗い粒度（ノード全体など）での障害対応では、平均復旧時間（MTTR）が長くなり、システム全体の稼働率を大きく損なうことが課題となっていました。入力データとしては、システム全体のRAS（Reliability, Availability, Serviceability）ログ、ジョブスケジューラのログ、環境センサーデータなどが必要となります。 #### 提案手法著者らは、MTTRを最小化するための自動故障管理システム（関連研究や発表では「StabilityDB」とも言及されるフレームワークの一部）を提案しています。 1. **集中型メタデータベース**: 過去のイベント履歴や相関イベント（同じ場所で繰り返されるエラーなど）を蓄積・分析します。 2. **きめ細かい修復ポリシー（Fine-grained policies）**: 障害が発生した際に、単にノードをオフラインにするのではなく、障害の種類や頻度（「ストライク」制など）に基づいて、リセット、分離、あるいは特定のGPUのみの切り離しといった柔軟な対応を決定します。 3. **自動回復フレームワーク**: 診断から復旧処置の実行までを自動化し、人間の介入を最小限に抑えます。 #### 新規性最大規模のスパコンである「Aurora」（63,744基のGPU搭載）において実際に運用・実証された点に大きな新規性があります。従来の手法が単一の故障イベントに反応的であったのに対し、本手法は履歴データを用いた統計的なアプローチ（Multi-strike policyなど）を取り入れ、過剰なノードドレイン（切り離し）を防ぎつつ、真のハードウェア故障を特定する精度を高めています。また、ノード単位ではなく、より細かい粒度での管理を実現している点も特徴です。 #### 実験設定実験（実証評価）は、Argonne National LaboratoryのAuroraスーパーコンピュータ上で実施されました。 - **データセット**: Auroraの運用データ（RASログ、メンテナンスログなど）。 - **評価指標**: 平均復旧時間（MTTR）、手動対応との比較における時間短縮倍率、システム可用性の向上度合い。 #### 実験結果 Auroraへの導入の結果、手動による保守プロセスと比較して、MTTRを最大で**84倍**短縮することに成功しました。これにより、システム管理者の負担が大幅に軽減されるとともに、大規模計算資源のダウンタイムが削減され、運用コストの抑制と科学技術計算のスループット向上に寄与しています。 ## Abstract ハイパフォーマンスコンピューティング（HPC）システムの規模が拡大するにつれて、システム全体のハードウェア故障率も上昇しています。大規模なHPC設備からの過去のデータはこの傾向を裏付けており、過去10年間で平均故障間隔（MTBF）が着実に減少していることを示しています。人工知能および機械学習（AI/ML）トレーニングにおける最近の研究も、将来のGPU加速システムにおいてMTBFの低下が続くことを予測しています。MTBFの減少に伴い、平均復旧時間（MTTR）はより重要な要素となり、効率的な回復戦略の必要性が強調されています。本論文では、故障統計に基づいたリアルタイムの意思決定を通じてMTTRを最小化することで、この課題に対処するために設計された自動故障管理システムを紹介します。このシステムの主な貢献には、相関イベントを含むイベント履歴を分析するための集中型メタデータベース、きめ細かいマルチストライク修復ポリシー、および自動回復フレームワークが含まれます。提案されたシステムはAuroraスーパーコンピュータに導入されており、手動による保守と比較してMTTRを最大84倍短縮することが実証されました。この大幅な改善は、多大なコスト削減とシステムダウンタイムの減少につながります。