# Yu Guan [[Alibaba Group|Alibaba Cloud]] 所属。[[@2026__NSDI__EROICA - Online Performance Troubleshooting for Large-scale Model Training]](NSDI 2026)の筆頭著者。大規模モデル訓練(LMT)のオンライン性能トラブルシューティングシステム EROICA を主導した。~100,000 GPU クラスタへの 1.5 年間の本番展開と 97.5% の診断成功率を達成した。 ## 関連 - ソース: [[@2026__NSDI__EROICA - Online Performance Troubleshooting for Large-scale Model Training]] - 所属: [[Alibaba Group|Alibaba Cloud]] - 関連システム: EROICA - 共著者: [[Kun Qian]] / [[Ennan Zhai]] / [[Pengcheng Zhang]] / [[Dennis Cai]] / [[Tianyin Xu]]