## Memo - 清華大学とByteDanceなどの共同研究グループ - 故障の悪影響 - ![[Pasted image 20241111173606.png|500]] - The entire task may be forced to stop for hours or days until fixed for retraining. - The economic loss for a customer can reach more than $1700 in a 128-machine task for 40 minutes (case in 2.1). - Training a GPT-2 model with 1.5 billion parameters and 40GB dataset [67], for instance, takes 200 days utilizing an NVIDIA V100 GPU [10] (or 12 days for a DGX-2H server). - 故障の診断には長い時間がかかるため、人件費と資源費が 増加する。2023年の7ヶ月データに基づき、故障した機械を 手動で診断できるまでの時間を図2に示す。時間は平均30分 以上であり、日数とすることもある。最終的にGPUとNICの リソースがアイドル状態になり、解決にかかる時間コスト が追加される。 - ![[Pasted image 20241112001839.png]] - 故障検知 - 例えば、CPUやGPUの使用は、実際の生産データからの観察に基づき、 故障表示のための最も感度の高い指標である。しかし、どちらも誤 り訂正符号(ECC)誤りの欠陥機械を特定することは保証されていな い。 - モニタリングデータにノイズが存在する場合、その検出は見当 違いになる可能性さえある。 - Minder - we developed Minder by leveraging the ideas of similarity (3.1), continuity (3.2), training individual models for each monitoring metric (3.3), and metric prioritization (3.4). Minder resolves the challenges by recognizing that a machine with a fault displays an abnormal pattern in certain metric data that differs from other machines and lasts for a duration. - Results - Manual labors are released from the debugging process since Minder can react within 3.6 seconds (6.1), reducing over 99% of the time of manual debugging (shorter time by 500 ×). - - よくあるマニュアルアプローチは、マシン上のログ、およびdmesg [2]、 netset、top コマンドを検査することである。 - The notification of when to trigger a diagnosis is not timely - 現在のアプローチでは、タスクが実行され続ける限り、性能の劣化を検出することができ ない。PCIeのダウングレードの例では、タスクは一定期間、パ フォーマンスを悪化させながら実行を続ける。 - Scrutinized content is incomplete or redundant. - PCIe 劣化ケース(2.1)では、優先順位ベースのフロー制御(PFC)パケ ットレートのような重要な監視データがログから速やかに検査 されなかったため、故障したマシンを特定することは困難であ った。 - The diagnosis analysis is a complicated and time- consuming process. - Manual diagnosis procedure and fault propagation for the PCIe downgrading case - ![[Pasted image 20241112002410.png]] - モニタリングデータは 複数のメトリクスを含み、1秒ごとにサンプリングされる。 - まず、ハードウェアの故障が故 障の大部分を占め(55.8%)、ECCエラーが大きな割合を占めている(3 8.9%)。CUDAやGPUで発生したエラーも大きな割合を占めている。 - Challenges - Challenge 1: Any machine could fail in various ways. - Challenge 2: The normal state of a monitoring metric is task-dependent. - Challenge 3: The correlation between fault types and monitoring metrics is not necessarily one-to-one. - Challenge 4: Noises exist in time series monitoring data - Design - Machine-level Similarity - PCIeのダウングレードの例では、初期のPFC Txパケ ットレートパターンは、図3のすべてのマシンで顕著に均一 である。しかし、あるマシンが故障した場合、その監視デー タには特徴的な違いが見られ、検出の機会を提供する。 - Machine-level Continuity - ![[Pasted image 20241112120456.png|400]] - ほとんどの異常パターンは5分異常継続する。 - Individual Learning-Based Denoising Models for Each Monitoring Metric - Challenge 4では、基本的なデータ整列と正規化に加えて、データノ イズ除去と再構成のための単純な学習モデルを利用する。変 分オートエンコーダ(VAE)やその他の生成確率モデルは、時系 列データのパターンや特徴を学習するために認識されている[ 52, 70]。また、学習データの大部分に対して生成係数を推論 できる埋め込みスキームを学習することでも知られている。 このため、教師なし学習は、異常検知タスクにおける正常な 動作のモデル化に特に適している。 - 各モニタリ ング指標に対して個別のモデルを学習させることを選択する - 3.4 Prioritized Metric Sequence - Minder: システムアーキテクチャ - ![[Pasted image 20241112143753.png|400]] - 議論 - その他、Minder と共に使用されるモニタリングツールには、ス イッチ状態のモニタリング、周期的なハートビートメッセージ(I P、ハードウェア状態、ポッド名など)、RDMA トラフィックのダ ウンリミットアラート、RPingmesh [54](pingmesh [33]のような 接続テスト)、GPU エラー検出のための自動テキスト分析などが ある - 一方、DCGM [1]、 EUD [3]などのオフラインテストツールは、実行時の故障識別に は実行不可能であるが、ホスト内ボトルネック診断に使用される。 - しかし、このような故障発生前の緩やかな劣化過程は、我 々の分散学習ではほとんど観察されない。 ![[Pasted image 20241112000808.png]] [[Nvidia GPU metrics]] ## Memo with LLM ## Abstract 大規模な分散モデル学習では、最大数千台のマシンで同時に学習する必要がある。 マシンに予期せぬ故障が発生した場合、故障マシンの検出は非常に重要である。 我々の経験から、トレーニングタスクは平均して1日に2つの故障に遭遇し、場合によっては数時間停止することもある。 時間と労力のかかる手作業による精査の欠点に対処するために、我々は分散訓練タスクのための自動故障機械検出器Minderを提案する。 Minderの重要なアイデアは、訓練タスク全体が停止するまでの一定期間続く可能性のある、欠陥のある特徴的なモニタリングメトリックパターンを自動的かつ効率的に検出することである。 Minderは1年以上にわたって私たちの本番環境に導入されており、それぞれが最大数千台のマシンを含む分散トレーニングタスクを毎日監視しています。 実世界の故障検出シナリオにおいて、Minderは平均3.6秒以内に故障に正確かつ効率的に反応することができ、精度は0.904、F1スコアは0.893でした。