# GreyHound
ハイブリッド並列訓練で fail-slow を狩るシステム(USENIX ATC 25, "GREYHOUND: Hunting Fail-Slows in Hybrid-Parallel Training at Scale", Wu+)。関数フックと CUDA event を組み合わせ、CCL を改変せず**非侵入的**に監視する点が特徴。([[Pulse]] が引く [54]、Source: [[2026__ASPLOS__Pulse - Fine-grained and Non-intrusive LLM Training Monitoring via Microsecond-level Traffic Measurement]] §2.2)
[[Pulse]] の比較対象(SOTA)で、3 つのベースラインの中で唯一の非侵入的手法。ただし監視は **OP-level** に留まるため、Pulse は「非侵入性は共有するが粒度が粗く、ストラグラーのマシン単位での箇所特定や計算と通信の弁別ができない」と位置づける。Pulse は非侵入性を保ったまま**トラフィック測定**で sub-OP-level まで踏み込む点で GreyHound を超えると主張する。
## 関連
- ソース: [[2026__ASPLOS__Pulse - Fine-grained and Non-intrusive LLM Training Monitoring via Microsecond-level Traffic Measurement]]
- 概念: [[LLM学習モニタリング]] / [[Fault Localization]]
- エンティティ: [[Pulse]] / [[Aegis]] / [[Holmes]] / [[Minder]]