# NDTimeline
[[ByteDance]] 内製のプロファイリングツール(veScale 配下、`github.com/volcengine/veScale`)。[[Megatron-LM]] ベースの学習システムに計装され、What-if 分析の入力となるトレースを生成する。(Source: [[@2025__OSDI__Understanding Stragglers in Large Model Training Using What-if Analysis]])
- 既定で学習ステップの 10% をサンプリングし、forward/backward-compute と通信(params-sync, grads-sync, forward/backward-send/recv)の start/end タイムスタンプを記録(表1)。
- 各オペレーションに種別・start/end・training step ID・microbatch ID・PP rank・DP rank を付与し、オペレーション依存の再構築を可能にする。
- マシン間のクロックを定期同期し、異なるマシンの関連オペレーションを整列。
- 制約: 粗粒度プロファイリングのため TP/CP グループ内のストラグラーは分析不能。
## 関連
- ソース: [[@2025__OSDI__Understanding Stragglers in Large Model Training Using What-if Analysis]]
- エンティティ: [[SMon]] / [[ByteDance]] / [[Megatron-LM]]
## 出典
- [[@2025__OSDI__Understanding Stragglers in Large Model Training Using What-if Analysis]](§3.1, 表1, 参照 [20] veScale)