# Ennan Zhai
Alibaba Cloud 所属。[[@2025__SIGCOMM__SkeletonHunter - Diagnosing and Localizing Network Failures in Containerized Large Model Training]](SIGCOMM 2025)の責任著者(corresponding author)の一人。
- Alibaba Cloud の大規模 AI 訓練ネットワーク系の研究に広く関与する。本論文の参照には Ennan Zhai を共著者とする [[R-Pingmesh]](RoCE ネットワーク監視・診断、SIGCOMM 2024 [56])、Alibaba HPN(SIGCOMM 2024 [67])、C4(リアルタイム異常検知・通信最適化 [39])など、Alibaba Cloud の AI インフラ・ネットワークの主要研究が並ぶ。
- [[@2025__NSDI__Evolution of Aegis - Fault Diagnosis for AI Model Training Service in Production]](NSDI 2025)の責任著者(corresponding author)。AI モデル訓練クラウド向けの障害診断システム [[Aegis]] の設計・進化を率いる。
- [[@2025__HPCA__Enhancing Large-Scale AI Training Efficiency - The C4 Solution for Real-Time Anomaly Detection and Communication Optimization]](HPCA 2025)の共著者。集約通信のリアルタイム異常検知・通信最適化システム [[C4]] に参画。
- [[@2026__NSDI__HeteCCL - Synthesizing Near-Optimal Collective Communication Schedules for Heterogeneous GPU Clusters]](NSDI 2026)の共著者。ヘテロジニアス GPU クラスタ向け集合通信スケジュール自動合成ツール HeteCCL に参画(Alibaba Cloud 所属として [[Northeastern University]] グループと協働)。
## 関連
- ソース: [[@2025__SIGCOMM__SkeletonHunter - Diagnosing and Localizing Network Failures in Containerized Large Model Training]] / [[@2025__NSDI__Evolution of Aegis - Fault Diagnosis for AI Model Training Service in Production]] / [[@2025__HPCA__Enhancing Large-Scale AI Training Efficiency - The C4 Solution for Real-Time Anomaly Detection and Communication Optimization]] / [[@2026__NSDI__EROICA - Online Performance Troubleshooting for Large-scale Model Training]] / [[@2026__NSDI__HeteCCL - Synthesizing Near-Optimal Collective Communication Schedules for Heterogeneous GPU Clusters]]
- 所属: Alibaba Cloud
- 関連システム: [[R-Pingmesh]] / [[Aegis]] / [[C4]]
- 共著者: [[Wei Liu]] / [[Kun Qian]] / [[Zhenhua Li]] / [[Tianyin Xu]] / [[Fei Feng]] / [[Xue Li]] / [[Weicheng Wang]]