# Holmes mega-scale GPU クラスタでの LLM 訓練の異常(irregularity)を箇所特定するシステム(NSDI 25, "Holmes: Localizing Irregularities in LLM Training with Mega-scale GPU Clusters", Yao+)。CCL 内でオペレータ情報をトレースし、とくにストラグラー識別に注力する。([[Pulse]] が引く [57]、Source: [[2026__ASPLOS__Pulse - Fine-grained and Non-intrusive LLM Training Monitoring via Microsecond-level Traffic Measurement]] §2.2) [[Pulse]] の比較対象(SOTA)。[[Aegis]]・[[GreyHound]] と同じ **OP-level 監視**で、Pulse はその粒度ではストラグラーをマシン単位に絞れずグループ単位止まりになる(DP group が 128-way 等で大きいと診断が遅れる)と指摘する。Pulse は、Holmes/GreyHound がストラグラーに対する追加ベンチマークを要する点も粒度の粗さの帰結とする。 ## 関連 - ソース: [[2026__ASPLOS__Pulse - Fine-grained and Non-intrusive LLM Training Monitoring via Microsecond-level Traffic Measurement]] - 概念: [[LLM学習モニタリング]] / [[Fault Localization]] - エンティティ: [[Pulse]] / [[Aegis]] / [[GreyHound]] / [[Minder]]