@2025__HPCA__Revisiting Reliability in Large-Scale Machine Learning Research Clusters

# Revisiting Reliability in Large-Scale Machine Learning Research Clusters Navigation: [[GPUクラスタ運用]] | [[LLM分散学習]] | [[耐障害LLM訓練]] > [!abstract] 概要(arXiv abstract の日本語訳) > 信頼性は、大規模な機械学習インフラストラクチャを運用するうえで根本的な課題であり、特に機械学習モデルと訓練クラスタの規模が拡大し続けるにつれて重要になる。 > インフラストラクチャ障害に関する研究は何十年も蓄積されてきたが、異なる規模のジョブ失敗がもたらす影響はなお明確ではない。 > 本論文は、2 つの大規模マルチテナント機械学習クラスタを管理する視点から、定量分析、運用経験、信頼性課題を大規模に理解し対処するための著者らの見解を提示する。 > 分析は、大規模ジョブが最も障害に脆弱である一方、小規模ジョブがクラスタ内のジョブの大多数を占めるため、最適化目的に組み込むべきであることを明らかにする。 > 著者らは主要なワークロード特性を特定し、クラスタ間で比較し、大規模な機械学習訓練の限界を押し広げるために不可欠な信頼性要件を示す。 > 本論文は、障害のタクソノミーと主要な信頼性メトリクスを導入し、2 つの最先端機械学習環境から得た 11 か月のデータ、4 百万ジョブ、1.5 億超の A100 GPU 時間を分析する。 > そのデータに基づいて、著者らはさまざまな GPU 規模に対する平均故障間隔を予測する障害モデルを当てはめる。 > さらに、ジョブパラメータの関数として関連メトリクスである有効訓練時間率(Effective Training Time Ratio; ETTR)を推定する方法を提案し、このモデルを用いて大規模時のソフトウェア緩和策の有効性を測る。 > 本研究は、柔軟でワークロード非依存かつ信頼性を意識したインフラストラクチャ、システムソフトウェア、アルゴリズムの必要性を強調し、AI スーパーコンピュータクラスタの信頼性改善に向けた有用な知見と今後の研究方向を提供する。 ## 論文情報 - タイトル: Revisiting Reliability in Large-Scale Machine Learning Research Clusters - 著者: [[Apostolos Kokolis]]*, [[Michael Kuchnik]]*, John Hoffman, Adithya Kumar, Parth Malani, Faye Ma, Zachary DeVito, Shubho Sengupta, Kalyan Saladi, [[Carole-Jean Wu]] - 所属: FAIR at [[Meta]] - 媒体: HPCA 2025, pages 1259-1274 - DOI: `10.1109/HPCA61900.2025.00096` - arXiv: `2410.21680`。ローカル PDF は arXiv v1 表記を含むが、IEEE document 10946752 と DOI に対応する出版版として扱う。 ## 概要本論文は [[Meta]] の [[Meta AI Research SuperCluster]] 系の 2 クラスタ、RSC-1(16k A100 GPU)と RSC-2(8k A100 GPU)の 11 か月運用データを用い、大規模 ML 研究クラスタの信頼性をジョブ件数・GPU 時間・障害率・復旧コストの観点で測る。小規模ジョブが大多数を占める研究クラスタの多様性と、少数の大規模ジョブが GPU 時間と障害影響を支配する歪みを同時に扱う点が特徴である。 ## 問題設定入力は Slurm のジョブログ、ノードレベルのヘルスチェック、サーバ・ネットワーク・ファイルシステム周辺の障害シグナルである。出力は、障害のタクソノミー、ジョブ規模ごとの MTTF、ETTR の解析式、レモンノード検知と適応ルーティングの運用効果である。著者らの主眼は、単一の LLM 専用クラスタでなく、1 GPU の評価・開発ジョブから 4k+ GPU の基盤モデル訓練まで混在する研究クラスタにある。 **Figure 4: 障害要因** ![[_attachments/ieee-10946752-revisiting-reliability-ml-research-clusters/fig4-failure-factors.png]] (Figure 4. 障害要因の内訳を示す。) ## 提案手法 - **障害タクソノミー**: ユーザコード、システムソフトウェア、ハードウェアを横断し、GPU メモリエラー、ドライバ/ファームウェア、NVLink、InfiniBand、ファイルシステムマウント、メインメモリ、PCIe、NCCL タイムアウト、システムサービスなどを症状から推定する。表1は、同じ症状が複数ドメインにまたがるため、根本原因を誤帰属しやすいと整理する。 - **MTTF モデル**: ノード障害率を `rf`、ジョブのノード数を `Nnodes` とし、MTTF を `(Nnodes rf)^-1` と近似する。32 GPU 以上では、実測 MTTF が GPU 数に反比例する理論傾向とよく合う。 - **ETTR 推定**: ETTR を生産的実行時間 `R` と壁時計時間 `W` の比 `R/W` と定義し、キュー待ち `Q`、非生産時間 `U`、チェックポイント間隔 `Δtcp`、再起動オーバーヘッド `u0`、障害率 `rf` から期待値を近似する。長時間・高優先度ジョブでは `E[ETTR] ≈ 1 - Nnodes rf (u0 + Δtcp/2)` へ単純化される。 - **レモンノード検知**: 過去の除外回数、XID 数、修理チケット、スケジューラから外された回数、単一/複数ノードジョブ失敗数などを特徴量とし、繰り返しジョブを落とすが既存ヘルスチェックでは見つからないノードを検知・隔離する。 - **適応ルーティング**: InfiniBand ファブリックのリンクエラーや輻輳に対し、スイッチレベルの適応ルーティングで不健全リンクを迂回し、NCCL AllReduce の帯域低下と性能分散を抑える。 **Figure 2: 図** ![[_attachments/ieee-10946752-revisiting-reliability-ml-research-clusters/fig2-figure.png]] (Figure 2. Network Topology of RSC-1 (similar for RSC-2) を示す。) **Figure 1: 全体像** ![[_attachments/ieee-10946752-revisiting-reliability-ml-research-clusters/fig1-overview.png]] (Figure 1. System Overview of the Research Cluster に関する全体像を示す。) **Figure 3: 図** ![[_attachments/ieee-10946752-revisiting-reliability-ml-research-clusters/fig3-figure.png]] (Figure 3. Scheduler Job Status Breakdown by Number of Jobs and GPU Runtime on RSC-1 を示す。) **Figure 5: 図** ![[_attachments/ieee-10946752-revisiting-reliability-ml-research-clusters/fig5-figure.png]] (Figure 5. GSP Timeouts were caused by a code regression that was fixed を示す。) ## 新規性従来の GPU クラスタ研究は最大でも数十 GPU 程度のジョブ規模、または LLM 訓練に特化した本番クラスタの一面に偏りがちだった。本論文は 10^5 GPU 時間級ではなく 1.5 億 A100 GPU 時間・4 百万ジョブという研究クラスタの運用データを公開し、ジョブ規模分布・障害影響・スケジューラの二次影響・ETTR を一つの信頼性設計問題として結びつける。 ## 実験設定 - クラスタ: RSC-1 は 16k A100 GPU の汎用 ML クラスタ、RSC-2 は 8k A100 GPU のビジョン寄りクラスタ。 - 期間: 11 か月。 - 規模: 4 百万ジョブ、1.5 億超 A100 GPU 時間、24k A100 GPU。 - スケジューラ: Slurm。ジョブは gang scheduling の意味論を持ち、1 タスク失敗がジョブ全体の再割当を引き起こす。 - ストレージ: NFS、AirStore、ObjectStore。チェックポイントを耐久化し、ジョブ寿命から切り離す。 ## 実験結果 - **ジョブ状態の内訳(図3)**: RSC-1 では約 60% のジョブが完了し、FAILED は 24%、NODE_FAIL は 0.1%、プリエンプトは 10%、再キューは 2%、タイムアウトは 0.6%。ハードウェア関連失敗はジョブ数では 0.2% だが GPU 実行時間の 18.7% に影響する。 - **障害原因(図4・Observation 5)**: 多くのハードウェア障害は未帰属であり、帰属できるものではバックエンドネットワーク、ファイルシステム、GPU が多い。GPU は XID など粒度の細かいエラー分類を持ち、上位はメモリ関連である。PCIe バスエラーと GPU がバスから落ちる事象は相関する。 - **故障率の時間変動(図5・Observation 6)**: 障害率は固定値でなく、RSC-1 では約 2.5 failures/1000 node-days の期間から約 17.5 failures/1000 node-days のスパイクまで変動する。新しいワークロードとソフトウェア更新により、障害率削減は継続的な作業になる。 - **ジョブ規模分布(図6・Observation 7)**: 90% 超のジョブは 1 サーバ未満だが GPU 時間は 10% 未満である。一方、256+ GPU ジョブは RSC-1 の GPU 時間の 66% 超、RSC-2 の 52% 超を占める。 - **MTTF(図7・Observation 8)**: 1024 GPU ジョブの MTTF は 7.9 時間で、8 GPU ジョブの 47.7 日より約 2 桁短い。16,384 GPU では 1.8 時間、131,072 GPU では 0.23 時間と予測される。 - **二次的なプリエンプション(図8・Observation 9)**: 1024 GPU ジョブが NODE_FAIL 後に 35 回再キューされ、548 件のプリエンプションと 7k GPU 超の巻き込みを起こした例がある。障害オーバーヘッド全体の 16% は、失敗した大規模ジョブそのものではなく、再キューに伴う小規模ジョブのプリエンプションから生じる。 - **ETTR(図9・図10・Observation 10)**: RSC クラスタの最大・最高優先度ジョブは、1 時間チェックポイント前提でも平均 ETTR 0.9 超を示す。RSC-1 全体を 16,000 GPU の単一訓練に使う仮想シナリオでは、60 分チェックポイントの ETTR は 0.7、5 分チェックポイントでは 0.93 になる。10 万 GPU 級では、RSC-2 並みの障害率でも ETTR 0.9 のために約 2 分チェックポイントと約 2 分再起動が必要になる。 - **レモンノード検知(図11・表2・Observation 11)**: 40 台の故障疑いノード(RSC-1:24、RSC-2:16)を 85% 超の精度で検知した。検知されたレモンノードは RSC-1 の 1.2%、RSC-2 の 1.7% のフットプリントに相当し、512+ GPU の大規模ジョブ失敗率を 14% から 4% へ下げた。 - **レモンノードの根本原因(表2)**: 検知されたレモンノードの根本原因は GPU 28.2%、DIMM 20.5%、PCIe 15.4%、EUD 10.3%、NIC 7.7%、BIOS 7.7%、PSU 5.1%、Optics 2.6%、CPU 2.6% であり、ノード反復故障は単一部品に閉じない。 - **適応ルーティング(図12・Observation 12)**: リンクエラー下の 512 GPU NCCL AllReduce と、64 ノードを 2 ノードグループに分けた輻輳実験で、適応ルーティングは帯域と性能安定性を改善する。リンク障害へのレジリエンス機構が無い場合、50% 超の帯域損失が起こりうる。 ## 考察本論文の強い示唆は、研究クラスタでは「少数の巨大訓練だけを最適化する」設計では不十分である点にある。大規模ジョブは MTTF と GPU 時間の面で支配的だが、小規模ジョブは件数とプリエンプションの巻き込みでクラスタ全体の goodput に効く。さらに、故障率は時間変動し、新しいヘルスチェックを導入すると見えていなかった故障モードが表面化するため、信頼性は一度の最適化でなく継続的な観測・隔離・ルーティング改善の運用問題になる。 ## 強み / 弱点・課題 - **強み**: 2 クラスタ・11 か月・1.5 億 A100 GPU 時間という公開例の少ない大規模運用データを、MTTF・ETTR・goodput・スケジューラ副作用まで一貫して分析する。 - **強み**: ETTR の近似式が、チェックポイント間隔・再起動時間・障害率を同じ設計空間に置くため、10 万 GPU 級の要件逆算に使える。 - **弱点**: PDF 本文が主にスケジューラとヘルスチェックから見たジョブレベル障害に依拠するため、アプリケーション内部の silent data corruption や学習品質劣化は限定的にしか扱わない。 - **弱点**: RSC-1/RSC-2 は Meta 内部の A100 世代クラスタであり、H100/GB200 世代、Ethernet/RoCE 中心のクラスタ、単一テナントの研究開発クラスタへ直接一般化するには追加検証が要る。 ## 関連リンク - arXiv: https://arxiv.org/abs/2410.21680 - DOI: https://doi.org/10.1109/HPCA61900.2025.00096