## Memo
- 清華大学とByteDanceなどの共同研究グループ
- 故障の悪影響
- ![[Pasted image 20241111173606.png|500]]
- The entire task may be forced to stop for hours or days until fixed for retraining.
- The economic loss for a customer can reach more than $1700 in a 128-machine task for 40 minutes (case in 2.1).
- Training a GPT-2 model with 1.5 billion parameters and 40GB dataset [67], for instance, takes 200 days utilizing an NVIDIA V100 GPU [10] (or 12 days for a DGX-2H server).
- 故障の診断には長い時間がかかるため、人件費と資源費が 増加する。2023年の7ヶ月データに基づき、故障した機械を 手動で診断できるまでの時間を図2に示す。時間は平均30分 以上であり、日数とすることもある。最終的にGPUとNICの リソースがアイドル状態になり、解決にかかる時間コスト が追加される。
- ![[Pasted image 20241112001839.png]]
- 故障検知
- 例えば、CPUやGPUの使用は、実際の生産データからの観察に基づき、 故障表示のための最も感度の高い指標である。しかし、どちらも誤 り訂正符号(ECC)誤りの欠陥機械を特定することは保証されていな い。
- モニタリングデータにノイズが存在する場合、その検出は見当 違いになる可能性さえある。
- Minder
- we developed Minder by leveraging the ideas of similarity (3.1), continuity (3.2), training individual models for each monitoring metric (3.3), and metric prioritization (3.4). Minder resolves the challenges by recognizing that a machine with a fault displays an abnormal pattern in certain metric data that differs from other machines and lasts for a duration.
- Results
- Manual labors are released from the debugging process since Minder can react within 3.6 seconds (6.1), reducing over 99% of the time of manual debugging (shorter time by 500 ×).
-
- よくあるマニュアルアプローチは、マシン上のログ、およびdmesg [2]、 netset、top コマンドを検査することである。
- The notification of when to trigger a diagnosis is not timely
- 現在のアプローチでは、タスクが実行され続ける限り、性能の劣化を検出することができ ない。PCIeのダウングレードの例では、タスクは一定期間、パ フォーマンスを悪化させながら実行を続ける。
- Scrutinized content is incomplete or redundant.
- PCIe 劣化ケース(2.1)では、優先順位ベースのフロー制御(PFC)パケ ットレートのような重要な監視データがログから速やかに検査 されなかったため、故障したマシンを特定することは困難であ った。
- The diagnosis analysis is a complicated and time- consuming process.
- Manual diagnosis procedure and fault propagation for the PCIe downgrading case
- ![[Pasted image 20241112002410.png]]
- モニタリングデータは 複数のメトリクスを含み、1秒ごとにサンプリングされる。
- まず、ハードウェアの故障が故 障の大部分を占め(55.8%)、ECCエラーが大きな割合を占めている(3 8.9%)。CUDAやGPUで発生したエラーも大きな割合を占めている。
- Challenges
- Challenge 1: Any machine could fail in various ways.
- Challenge 2: The normal state of a monitoring metric is task-dependent.
- Challenge 3: The correlation between fault types and monitoring metrics is not necessarily one-to-one.
- Challenge 4: Noises exist in time series monitoring data
- Design
- Machine-level Similarity
- PCIeのダウングレードの例では、初期のPFC Txパケ ットレートパターンは、図3のすべてのマシンで顕著に均一 である。しかし、あるマシンが故障した場合、その監視デー タには特徴的な違いが見られ、検出の機会を提供する。
- Machine-level Continuity
- ![[Pasted image 20241112120456.png|400]]
- ほとんどの異常パターンは5分異常継続する。
- Individual Learning-Based Denoising Models for Each Monitoring Metric
- Challenge 4では、基本的なデータ整列と正規化に加えて、データノ イズ除去と再構成のための単純な学習モデルを利用する。変 分オートエンコーダ(VAE)やその他の生成確率モデルは、時系 列データのパターンや特徴を学習するために認識されている[ 52, 70]。また、学習データの大部分に対して生成係数を推論 できる埋め込みスキームを学習することでも知られている。 このため、教師なし学習は、異常検知タスクにおける正常な 動作のモデル化に特に適している。
- 各モニタリ ング指標に対して個別のモデルを学習させることを選択する
- 3.4 Prioritized Metric Sequence
- Minder: システムアーキテクチャ
- ![[Pasted image 20241112143753.png|400]]
- 議論
- その他、Minder と共に使用されるモニタリングツールには、ス イッチ状態のモニタリング、周期的なハートビートメッセージ(I P、ハードウェア状態、ポッド名など)、RDMA トラフィックのダ ウンリミットアラート、RPingmesh [54](pingmesh [33]のような 接続テスト)、GPU エラー検出のための自動テキスト分析などが ある
- 一方、DCGM [1]、 EUD [3]などのオフラインテストツールは、実行時の故障識別に は実行不可能であるが、ホスト内ボトルネック診断に使用される。
- しかし、このような故障発生前の緩やかな劣化過程は、我 々の分散学習ではほとんど観察されない。
![[Pasted image 20241112000808.png]]
[[Nvidia GPU metrics]]
## Memo with LLM
## Abstract
大規模な分散モデル学習では、最大数千台のマシンで同時に学習する必要がある。 マシンに予期せぬ故障が発生した場合、故障マシンの検出は非常に重要である。 我々の経験から、トレーニングタスクは平均して1日に2つの故障に遭遇し、場合によっては数時間停止することもある。 時間と労力のかかる手作業による精査の欠点に対処するために、我々は分散訓練タスクのための自動故障機械検出器Minderを提案する。 Minderの重要なアイデアは、訓練タスク全体が停止するまでの一定期間続く可能性のある、欠陥のある特徴的なモニタリングメトリックパターンを自動的かつ効率的に検出することである。 Minderは1年以上にわたって私たちの本番環境に導入されており、それぞれが最大数千台のマシンを含む分散トレーニングタスクを毎日監視しています。 実世界の故障検出シナリオにおいて、Minderは平均3.6秒以内に故障に正確かつ効率的に反応することができ、精度は0.904、F1スコアは0.893でした。