分散学習向けクラスタの信頼性指標

[[2025__HPCA__Revisiting Reliability in Large-Scale Machine Learning Research Clusters]]より、MetaのGPUクラスタであるRSC-1とRSC-2では、次の3つの信頼性指標が考慮されている。 ## Effective Training Time Ratio (ETTR) > 有効トレーニング時間比率（Effective Training Time Ratio: ETTR）とは、ジョブ実行における生産的な実行時間と利用可能な壁時計時間との比率として定義される。ジョブ実行とは、同一の論理ジョブに関連する1つ以上のスケジューラジョブの集合を指す[52]。例えば、複数週間にわたるLLM事前学習の実行では、プリエンプションやインフラ障害によって区切られた複数の異なるジョブから構成される場合がある（ETTRでは、ユーザー空間の障害による影響は無視し、クラスタの安定性に起因する影響のみを考慮する）。ジョブ実行における利用可能な壁時計時間とは、マルチジョブ実行中の各ジョブが、1）スケジュールされていた時間、または2）スケジュール可能であったがキュー内で待機していた時間の合計として定義される。生産的な実行時間とは、ワークロードに対して有意義な進捗が達成されているスケジュール実行時間を指す。生産的実行時間の厳密な定義は文脈によって異なる解釈が可能であるが、本研究では非生産的なスケジュール実行時間の要因として以下の3つを特定する： > 非生産的なスケジュール時間の発生要因として、以下の3つが挙げられる： 1) 前回保存したチェックポイントからのリカバリー：最新のチェックポイントとジョブ中断間の再学習処理 2) 再起動に伴うオーバーヘッド：通常の運用では必要としない、再起動後に実行しなければならない初期化タスク 3) チェックポイント処理に伴うオーバーヘッド：ジョブ実行時間に加算されるチェックポイント作成時間 > これらの要因はすべてジョブの特性に強く依存しており、現時点では大規模環境において信頼性の高い追跡手法が確立されていない。ただし、我々はこれらを探索可能な自由パラメータとして扱い、様々な研究チームとの共同研究で得られた経験的な知見に基づき、妥当な値を設定している。 ETTR（Effective Training Time Ratio：有効トレーニング時間比率）は0（ジョブが全く有意義な進捗を示さない場合）から1（壁時計時間の100%が有意義な進捗に費やされた場合、すなわちキューイング時間や非生産的な実行時間が全く発生しなかった場合）の範囲で変動する。ETTRは標準的なジョブスローダウン指標[31]と類似しており、これは壁時計時間と特定ジョブに割り当てられたスケジュール時間の比率として定義される。ただし、ETTRはさらに非生産的な実行時間を考慮に入れ、解釈性を高めるために比率を反転させている点が特徴である。 > ETTRと同様の指標として、ジョブが失敗に至るまでの実行時間を追跡する方法がある。これは当初、LLaMa[56]などのLLMのトレーニング効率を監視するためにインフラストラクチャの問題を段階的に診断する目的で使用されていた。その後、このような指標はETTRとして一般化され、本稿で紹介するクラスタ以外の最新LLM[47]の評価においても有用であることが確認されている。例えばGoogle Cloudでは、これを「Runtime Goodput」（ランタイム・グッドプット）と称する類似の指標を定義している[3]。 > 本論文で用いるグッドプット指標（計算資源の無駄遣いによる影響のみを考慮し、待機時間などの要因は含まない）を明確に区別するため、我々は「Effective Training Time Ratio」（有効トレーニング時間比率：ETTR）という用語を使用している。同様に、本稿で用いるETTRは、マルチテナントクラスタで見られる待機時間を考慮している点で、他の定義[61]とは異なっている点に留意されたい。 > モデル性能を特徴付ける他の潜在的な指標としては、Model Flops Utilization（[[MFU]]：モデルFLOPs利用率）[21]、[42]が挙げられるが、本稿ではこれを割愛する。MFUはモデルが理論上利用するFLOPs数をハードウェアのピークFLOPs数と比較した指標であり、クラスタ全体にわたって一般的に適用することは難しい。 ## Goodput > グッドプット値。ETTR（Exposure-Time Tailored Rendering）とMFU（Maximum Frame Utilization）は、ジョブごとの効率性指標として解釈できる。クラスタ全体の性能は、単位時間当たりに集約的に完了した生産的作業量であるグッドプット値で評価可能である。このグッドプット値は、理論上達成可能な最大グッドプット値で正規化することで、0から1の範囲で利用率として表現できる。本論文で考察するクラスタは高い利用率で運用されているため（従って潜在的なグッドプット値は、利用可能な作業量よりもむしろシステム容量によって制限される）、ジョブのプリエンプション、リソースの断片化、および障害が主要なグッドプット損失要因となる。本論文では特定の制約条件下における損失を伝達するためにグッドプット値を用いるが、クラスタにおけるジョブ生産性の主要な評価指標としてはETTRに焦点を当てる。 ## Mean Time to Failure (MTTF)