# CCL-D
[[Ant Group]] と [[University of Chinese Academy of Sciences]] が共同開発した、大規模 LLM 分散訓練における CCL(集合通信ライブラリ)の Slow/Hang 異常を自動診断するシステム。PPoPP '26 で発表([[@2026__PPoPP__CCL-D - A High-Precision Diagnostic System for Slow and Hang Anomalies in Large-Scale Model Training]])。
Send/Recv プリミティブに基づく 4 種のクロスレイヤメトリクス(SendCount/RecvCount/SendRate/RecvRate)と、CUDA UVA ベースのゼロコピーホスト駆動計測を組み合わせ、ランクプロービングモジュールと集中型決定解析モジュールの 2 層で構成される。H1〜H3(ハング 3 種)・S1〜S3(スロー 3 種)の全 6 異常カテゴリを網羅し、150 ms 以内にランクを特定。4,000-GPU 本番クラスタでの 1 年間展開で手動診断 47〜74 時間を 1〜6 分に短縮した。
[[C4D]](Alibaba [[ACCL]] 拡張)と同じ CCL ランタイム解析アプローチを取るが、カーネルレベル状態を追加した点で精度が向上し、特に Mixed-Slow(S3)への対応と 108/146 ms のミリ秒単位特定という効率が特徴。
## 関連
- 本ソース: [[@2026__PPoPP__CCL-D - A High-Precision Diagnostic System for Slow and Hang Anomalies in Large-Scale Model Training]]
- 開発元: [[Ant Group]] / [[University of Chinese Academy of Sciences]]
- 責任著者: [[Dingwen Tao]] / Tao Wang
- 競合/比較: [[C4D]] / [[XPUTimer]] / NCCL RAS / Greyhound
- 関連概念: [[集合通信]] / [[耐障害LLM訓練]] / [[Fault Localization]] / [[LLM学習モニタリング]]