2025__HPCA__Revisiting Reliability in Large-Scale Machine Learning Research Clusters

## Memo ![[Pasted image 20250824184548.png|500]] ![[Pasted image 20250824184619.png]] - 指標 - Effective Training Time Ratio (ETTR)： the ratio of productive runtime to the available wallclock time of a job run. - Model Flops Utilization ([[MFU]]) - Goodput: 上記のメトリクスはどちらもジョブごとの効率メトリクスと見なすことができます。クラスタ全体としては、単位時間当たりに完了した生産的な作業の量であるグッドプットで測定することができます。グッドプットは、可能な最大グッドプットで正規化することで、0から1の範囲の利用率を生成することができます。本稿で議論するクラスタは、高い利用率で動作しているため（潜在的なグッドプットは、利用可能な作業ではなく、容量によってのみ制限される）、ジョブの先取り、リソースの断片化、および障害が、グッドプットを失う主な原因となっています。 ## Memo with LLM ### 論文情報 - **タイトル**: Revisiting Reliability in Large-Scale Machine Learning Research Clusters - **著者と所属**: Apostolos Kokolis*, Michael Kuchnik*, John Hoffman, Adithya Kumar, Parth Malani, Faye Ma, Zachary DeVito, Shubho Sengupta, Kalyan Saladi, Carole-Jean Wu (FAIR at Meta) - **カンファレンス**: 2025 IEEE International Symposium on High Performance Computer Architecture (HPCA) - **発表年**: 2024年（HPCA 2025で発表予定） ### 論文概要本論文は、Meta社が運用する2つの大規模機械学習研究クラスター（RSC-1: 16k GPU、RSC-2: 8k GPU）における11ヶ月間の運用データを分析し、大規模MLインフラストラクチャの信頼性課題を定量的に解明した研究である。400万ジョブと1億5000万A100 GPU時間のデータから、故障の分類法と主要な信頼性指標を導出し、効果的な軽減策を提案している。 ### 詳細解説 #### 問題設定 **入力**: 大規模機械学習クラスターにおける訓練ジョブ（1GPU〜4k+GPU規模） **出力**: 故障率の分析、信頼性指標（ETTR, MTTF等）、故障軽減策の効果評価 **必要なデータ**: - Slurmスケジューラのジョブログ（11ヶ月分） - 400万ジョブの実行記録 - 1億5000万A100 GPU時間の運用データ - ノードレベルのヘルスチェック結果 - ネットワーク故障データ #### 提案手法 **1. 故障分類法（Failure Taxonomy）** 故障をドメイン別（ユーザーコード、システムソフトウェア、ハードウェア）に分類し、症状から根本原因を推定する差分診断手法を提案。 **2. Effective Training Time Ratio (ETTR)** ETTRを以下の式で定義： ``` ETTR = 生産的実行時間 / 利用可能なウォールクロック時間 ``` 期待値は次式で近似： ``` E[ETTR] ≈ (1 - Nₙₒ𝒹ₑₛrᶠ(u₀ + Δt_cp/2)) / (1 + w_cp/Δt_cp) ``` ここで、Nₙₒ𝒹ₑₛは使用ノード数、rᶠは故障率、u₀は初期化時間、Δt_cpはチェックポイント間隔、w_cpはチェックポイント書き込み時間。 **3. Lemon Node Detection** 過去のデータから統計的に故障率の高いノード（レモンノード）を検出する機構を設計。7つの信号（excl_jobid_count、xid_cnt、tickets等）を用いた二値分類モデル。 **4. Adaptive Routing (AR)** InfiniBandファブリックで動的ルーティング調整により、故障リンクや混雑を回避してネットワーク信頼性を向上。 #### 新規性 **1. スケールの新規性**: 従来研究は数十GPU規模が中心だったが、本研究は4k+GPU規模まで実際のワークロードで分析。 **2. ワークロード多様性**: LLM専用クラスターではなく、1GPU〜4k+GPUの多様な研究ワークロードを対象とした初の大規模分析。 **3. 定量的故障予測**: MTTF ∝ 1/Nₙₒ𝒹ₑₛの理論式が4k GPU規模まで実証データと一致することを確認。 **4. 実用的軽減策**: 実運用環境で検証済みのヘルスチェック、レモンノード検出、適応ルーティングの効果を定量評価。 #### 実験設定 **データセット**: - RSC-1クラスター: 16k A100 GPU、平均83%利用率、1日7.2kジョブ - RSC-2クラスター: 8k A100 GPU、平均85%利用率、1日4.4kジョブ **評価指標**: - ETTR（Effective Training Time Ratio） - MTTF（Mean Time to Failure） - Goodput（有効な計算量/時間） - 故障率（failures per 1000 node-days） #### 実験結果 **1. 故障率分析**: - RSC-1: 6.50故障/1000ノード日、RSC-2: 2.34故障/1000ノード日 - 主要故障要因: InfiniBandリンク、ファイルシステムマウント、GPU メモリエラー、PCIeエラー **2. スケール依存性**: - 1024 GPU ジョブのMTTF: 7.9時間（8 GPUジョブの47.7日に対し） - 理論予測MTTF ∝ 1/Nₙₒ𝒹ₑₛが実測値と良好に一致 **3. ETTR分析**: - 最大規模ジョブ（2048-4096 GPU）でETTR ≈ 0.9を達成 - 12k GPU規模でETTR ≥ 0.9を実現するには、チェックポイント書き込み時間を約10秒以下にする必要 **4. 軽減策効果**: - レモンノード検出: 大規模ジョブ（512+ GPU）の故障率を14%から4%に削減（30%以上改善） - 適応ルーティング: リンクエラー下で50-75%の帯域幅損失を大幅に軽減 ## Abstract 信頼性は、特にMLモデルと訓練クラスターの規模が継続的に成長する中で、大規模機械学習（ML）インフラストラクチャを運用する上での根本的な課題である。インフラストラクチャ障害に関する数十年の研究にもかかわらず、異なる規模でのジョブ障害の影響は明確ではない。本論文では、2つの大規模マルチテナントMLクラスターを管理する観点から、定量的分析、運用経験、および規模での信頼性の懸念を理解し対処するための我々独自の視点を提供する。我々の分析により、大規模ジョブは故障に最も脆弱である一方で、小規模ジョブがクラスター内のジョブの大部分を占めており、最適化目標に組み込まれるべきであることが明らかになった。我々は主要なワークロードの特性を特定し、クラスター間でそれらを比較し、MLトレーニングの境界を押し広げるための重要な信頼性要件を実証する。