- 故障アラートをトリガーとして、[[MetricSifter]]を実行。 - ノードごとに異常なメトリクスの数の割合でヒートマップを作る。 [[2024__NSDI__MegaScale - Scaling Large Language Model Training to More Than 10,000 GPUs|MegaScale]]論文のFigure 7のヒートマップのようなイメージ。 ![[Pasted image 20241001123019.png]]