# C4D [[C4]] の診断サブシステム(C4 Diagnose)。[[ACCL]] を拡張して集約通信操作をリアルタイムに監視し、通信・オペレーション・トランスポートの 3 層で監視情報を収集する。Bulk Synchronous Parallel(BSP)モデルの同期点を利用した異常検知アルゴリズムと、通信遅延行列(communication latency matrix)による slow connection の特定で、故障コンポーネントを数十秒で箇所特定する。エラー誘発ダウンタイムを 31.19% から 1.16% へ削減した。([[@2025__HPCA__Enhancing Large-Scale AI Training Efficiency - The C4 Solution for Real-Time Anomaly Detection and Communication Optimization]]) ## 関連 - 本ソース: [[@2025__HPCA__Enhancing Large-Scale AI Training Efficiency - The C4 Solution for Real-Time Anomaly Detection and Communication Optimization]] - 親システム: [[C4]] / 対をなすサブシステム: [[C4P]] - 基盤: [[ACCL]] - 関連概念: [[耐障害LLM訓練]] / [[LLM学習モニタリング]] / [[ストラグラー]]