# Pulse
[[Nanjing University]] らが開発した、LLM 訓練向けの細粒度かつ非侵入的な監視/異常箇所特定システム。訓練コードや [[NCCL]] 等の CCL を一切改変せず、NIC 上で行うマイクロ秒級 RDMA トラフィック計測だけで異常を machine-level に局所化する。(Source: [[2026__ASPLOS__Pulse - Fine-grained and Non-intrusive LLM Training Monitoring via Microsecond-level Traffic Measurement]])
3 コンポーネント構成:
- **Pulse NIC Agent**: [[BlueField-3]] 上の 3 層計測(集約/計測/収集)で per-QP レートをマイクロ秒粒度・フル精度で計測。計測をパケット処理のクリティカルパスから外しオーバーヘッドを抑える。
- **Pulse Host Agent**: NCCL/RDMA API のフック計装で得た期待通信量とピアを使い、per-QP レート曲線をオペレータ単位に分割する(オペレータ分割アルゴリズム)。並列化戦略(DP/TP/PP/EP)も決定木で識別する。
- **Pulse Analyzer**: 細粒度データを全量上げず、実通信時間と通信量の 2 指標で軽量に箇所特定する。
実績: 64 H200 GPU のテストベッドで 12 シナリオ中 10 を machine-level に箇所特定(SOTA の [[Aegis]]/[[Holmes]]/[[GreyHound]] は 4・2 を誤診)、適合率 >90%・再現率 100%・平均約 6 秒、訓練オーバーヘッドは無視可能、NIC あたり 2000 並行フロー。位置づけは [[Minder]](秒単位のホストメトリクス)・[[MegaScale]](ハートビート)が取りこぼすマイクロ秒級の隙間を**ネットワークトラフィック**から埋める検知機構(→ [[LLM学習モニタリング]])。制約は inter-node collective のみ(NVLink は監視外)で、CollNet/NVLS は未対応。
## 関連
- ソース: [[2026__ASPLOS__Pulse - Fine-grained and Non-intrusive LLM Training Monitoring via Microsecond-level Traffic Measurement]]
- 概念: [[LLM学習モニタリング]] / [[Fault Localization]] / [[GPUクラスタ運用]] / [[LLM分散学習]]
- エンティティ: [[Nanjing University]] / [[BlueField-3]] / [[NCCL]] / [[Aegis]] / [[Holmes]] / [[GreyHound]] / [[Chen Tian]]