# C4 [[Alibaba Group]] が開発した大規模 AI 訓練向けの通信駆動型ソリューション。正式名は Calibrating Collective Communication over Converged Ethernet。分散訓練の同質性・周期性と、限られた数の長寿命フローという予測可能な通信モデルを活用し、二つのサブシステム [[C4D]](異常検知)と [[C4P]](通信最適化)を統合する。エラー誘発ダウンタイムを 31.19% から 1.16% へ削減し、システム効率を 30% から 45% へ引き上げた。ハイパースケールクラウドの本番に 30 ヶ月以上展開された。([[@2025__HPCA__Enhancing Large-Scale AI Training Efficiency - The C4 Solution for Real-Time Anomaly Detection and Communication Optimization]]) ## 関連 - 本ソース: [[@2025__HPCA__Enhancing Large-Scale AI Training Efficiency - The C4 Solution for Real-Time Anomaly Detection and Communication Optimization]] - サブシステム: [[C4D]] / [[C4P]] - 基盤: [[ACCL]] - 開発: [[Alibaba Group]] / [[Hong Kong University of Science and Technology]] - 関連概念: [[耐障害LLM訓練]] / [[集合通信]] / [[オープンネットワーキング]]