# SMon
What-if 分析パイプラインの一部を組み込んだオンライン監視サービス。[[ByteDance]] の LLM 学習クラスタに展開されている。(Source: [[@2025__OSDI__Understanding Stragglers in Large Model Training Using What-if Analysis]])
- [[NDTimeline]] のプロファイリングセッション(数十ステップ)ごとに自動実行され、スローダウン $S$・ステップ単位スローダウン・ワーカースローダウンを推定して Web ページに提示。
- ワーカースローダウンをヒートマップで可視化(x=DP rank, y=PP rank、色の濃さ=スローダウン。Pingmesh 類似)。根本原因ごとに固有のパターンを示す(ワーカー障害・ステージ分割不均衡・シーケンス長不均衡)。
- 重要ジョブの大スローダウン時に on-call チームへアラート。展開初月にファールティマシン 3 件・シーケンス長不均衡 1 件・ステージ分割不均衡 1 件を検知・対処。
## 関連
- ソース: [[@2025__OSDI__Understanding Stragglers in Large Model Training Using What-if Analysis]]
- エンティティ: [[NDTimeline]] / [[ByteDance]] / [[StragglerAnalysis]]
## 出典
- [[@2025__OSDI__Understanding Stragglers in Large Model Training Using What-if Analysis]](§8, §10)