# Yu Guan
[[Alibaba Group|Alibaba Cloud]] 所属。[[@2026__NSDI__EROICA - Online Performance Troubleshooting for Large-scale Model Training]](NSDI 2026)の筆頭著者。大規模モデル訓練(LMT)のオンライン性能トラブルシューティングシステム EROICA を主導した。~100,000 GPU クラスタへの 1.5 年間の本番展開と 97.5% の診断成功率を達成した。
## 関連
- ソース: [[@2026__NSDI__EROICA - Online Performance Troubleshooting for Large-scale Model Training]]
- 所属: [[Alibaba Group|Alibaba Cloud]]
- 関連システム: EROICA
- 共著者: [[Kun Qian]] / [[Ennan Zhai]] / [[Pengcheng Zhang]] / [[Dennis Cai]] / [[Tianyin Xu]]