# SMon What-if 分析パイプラインの一部を組み込んだオンライン監視サービス。[[ByteDance]] の LLM 学習クラスタに展開されている。(Source: [[@2025__OSDI__Understanding Stragglers in Large Model Training Using What-if Analysis]]) - [[NDTimeline]] のプロファイリングセッション(数十ステップ)ごとに自動実行され、スローダウン $S$・ステップ単位スローダウン・ワーカースローダウンを推定して Web ページに提示。 - ワーカースローダウンをヒートマップで可視化(x=DP rank, y=PP rank、色の濃さ=スローダウン。Pingmesh 類似)。根本原因ごとに固有のパターンを示す(ワーカー障害・ステージ分割不均衡・シーケンス長不均衡)。 - 重要ジョブの大スローダウン時に on-call チームへアラート。展開初月にファールティマシン 3 件・シーケンス長不均衡 1 件・ステージ分割不均衡 1 件を検知・対処。 ## 関連 - ソース: [[@2025__OSDI__Understanding Stragglers in Large Model Training Using What-if Analysis]] - エンティティ: [[NDTimeline]] / [[ByteDance]] / [[StragglerAnalysis]] ## 出典 - [[@2025__OSDI__Understanding Stragglers in Large Model Training Using What-if Analysis]](§8, §10)