## Memo
## Memo with LLM
## Abstract
シミュレーションは列挙(enumeration)および外挿(extrapolation)の両方の目的において独自の価値を提供し、大規模な機械学習(ML)クラスタや大規模分散学習ジョブの管理においてますます重要になっている。本論文では、大規模学習シミュレーションにおける3つの主要な課題に取り組むために **Echo** を構築する。具体的には、以下の課題に対処する:
1. **Ex-situ** の手法で各デバイスの実行時トレーニングワークロードをトレースし、1台のデバイスを用いて1K-GPU学習の実際の実行グラフを取得できるようにすること。
2. **離散イベントベースのネットワークシミュレーションに伴う高いオーバーヘッドを発生させることなく**、集団通信(collective communication)を正確に推定すること。
3. **同一デバイス上での通信カーネルと計算カーネルのオーバーラップによる干渉が引き起こす計算速度の低下** を考慮すること。
**Echo** は、GPT-175B の 3D パラレリズムを採用した **[[Megatron|Megatron-LM]]** において、**96-GPU の H800 クラスタ上でのトレーニングステップ誤差を平均8%に抑え、最先端のシミュレータと比較して約3倍の精度向上を実現** しながら、**2分以内で結果を提供** する。