# Kun Qian Alibaba Cloud 所属。[[@2025__SIGCOMM__SkeletonHunter - Diagnosing and Localizing Network Failures in Containerized Large Model Training]](SIGCOMM 2025)の共著者(第 2 著者)。 - 同論文の参照([67])に Kun Qian を筆頭著者とする「Alibaba HPN: A Data Center Network for Large Language Model Training」(SIGCOMM 2024)があり、LLM 訓練向けデータセンターネットワークアーキテクチャ(rail-optimized topology 等、本論文の前提に通じる)を手がけている。 - [[@2025__NSDI__Evolution of Aegis - Fault Diagnosis for AI Model Training Service in Production]](NSDI 2025)では equal contribution の筆頭著者の一人。AI モデル訓練クラウド向け障害診断システム [[Aegis]] を手がける。 ## 関連 - ソース: [[@2025__SIGCOMM__SkeletonHunter - Diagnosing and Localizing Network Failures in Containerized Large Model Training]] / [[@2025__NSDI__Evolution of Aegis - Fault Diagnosis for AI Model Training Service in Production]] / [[@2026__NSDI__EROICA - Online Performance Troubleshooting for Large-scale Model Training]] - 所属: Alibaba Cloud - 関連システム: [[Aegis]] - 共著者: [[Wei Liu]] / [[Zhenhua Li]] / [[Ennan Zhai]]