# Ennan Zhai Alibaba Cloud 所属。[[@2025__SIGCOMM__SkeletonHunter - Diagnosing and Localizing Network Failures in Containerized Large Model Training]](SIGCOMM 2025)の責任著者(corresponding author)の一人。 - Alibaba Cloud の大規模 AI 訓練ネットワーク系の研究に広く関与する。本論文の参照には Ennan Zhai を共著者とする [[R-Pingmesh]](RoCE ネットワーク監視・診断、SIGCOMM 2024 [56])、Alibaba HPN(SIGCOMM 2024 [67])、C4(リアルタイム異常検知・通信最適化 [39])など、Alibaba Cloud の AI インフラ・ネットワークの主要研究が並ぶ。 - [[@2025__NSDI__Evolution of Aegis - Fault Diagnosis for AI Model Training Service in Production]](NSDI 2025)の責任著者(corresponding author)。AI モデル訓練クラウド向けの障害診断システム [[Aegis]] の設計・進化を率いる。 - [[@2025__HPCA__Enhancing Large-Scale AI Training Efficiency - The C4 Solution for Real-Time Anomaly Detection and Communication Optimization]](HPCA 2025)の共著者。集約通信のリアルタイム異常検知・通信最適化システム [[C4]] に参画。 - [[@2026__NSDI__HeteCCL - Synthesizing Near-Optimal Collective Communication Schedules for Heterogeneous GPU Clusters]](NSDI 2026)の共著者。ヘテロジニアス GPU クラスタ向け集合通信スケジュール自動合成ツール HeteCCL に参画(Alibaba Cloud 所属として [[Northeastern University]] グループと協働)。 ## 関連 - ソース: [[@2025__SIGCOMM__SkeletonHunter - Diagnosing and Localizing Network Failures in Containerized Large Model Training]] / [[@2025__NSDI__Evolution of Aegis - Fault Diagnosis for AI Model Training Service in Production]] / [[@2025__HPCA__Enhancing Large-Scale AI Training Efficiency - The C4 Solution for Real-Time Anomaly Detection and Communication Optimization]] / [[@2026__NSDI__EROICA - Online Performance Troubleshooting for Large-scale Model Training]] / [[@2026__NSDI__HeteCCL - Synthesizing Near-Optimal Collective Communication Schedules for Heterogeneous GPU Clusters]] - 所属: Alibaba Cloud - 関連システム: [[R-Pingmesh]] / [[Aegis]] / [[C4]] - 共著者: [[Wei Liu]] / [[Kun Qian]] / [[Zhenhua Li]] / [[Tianyin Xu]] / [[Fei Feng]] / [[Xue Li]] / [[Weicheng Wang]]