# NDTimeline [[ByteDance]] 内製のプロファイリングツール(veScale 配下、`github.com/volcengine/veScale`)。[[Megatron-LM]] ベースの学習システムに計装され、What-if 分析の入力となるトレースを生成する。(Source: [[@2025__OSDI__Understanding Stragglers in Large Model Training Using What-if Analysis]]) - 既定で学習ステップの 10% をサンプリングし、forward/backward-compute と通信(params-sync, grads-sync, forward/backward-send/recv)の start/end タイムスタンプを記録(表1)。 - 各オペレーションに種別・start/end・training step ID・microbatch ID・PP rank・DP rank を付与し、オペレーション依存の再構築を可能にする。 - マシン間のクロックを定期同期し、異なるマシンの関連オペレーションを整列。 - 制約: 粗粒度プロファイリングのため TP/CP グループ内のストラグラーは分析不能。 ## 関連 - ソース: [[@2025__OSDI__Understanding Stragglers in Large Model Training Using What-if Analysis]] - エンティティ: [[SMon]] / [[ByteDance]] / [[Megatron-LM]] ## 出典 - [[@2025__OSDI__Understanding Stragglers in Large Model Training Using What-if Analysis]](§3.1, 表1, 参照 [20] veScale)