# Huawei Cloud Huawei のクラウド部門(Huawei Cloud Computing Technology Co., Ltd.)。Computing and Networking Innovation Lab を擁し、本番マルチテナント LLM 訓練基盤 [[Platform-X]] を運営する。(Source: [[@2025__ESEC-FSE__L4 - Diagnosing Large-scale LLM Training Failures via Automated Log Analysis]]) - LLM 訓練障害のログ解析診断 [[L4]](FSE 2025)と、ネットワークフローからのブラックボックス性能診断 [[LLMPrism]](DSN 2025)の双方で産業側著者(Cong Feng・Yongqiang Yang・Zengyin Yang・[[Rui Ren]])を出す。いずれも [[The Chinese University of Hong Kong]] の [[Michael R. Lyu]] グループとの産学共同研究。 - [[L4]]・[[LLMPrism]] はともに本番の [[Platform-X]] にデプロイされ、L4 は 2024 年 6 月から障害管理システムに、LLMPrism は 2024 年 10 月から稼働する。 - [[FlowXpert]] 論文([[@2025__KDD__FlowXpert - Expertizing Troubleshooting Workflow Orchestration with Knowledge Base and Multi-Agent Coevolution]], KDD 2025)では Zhi Zhang・Ronghua Sun・Haihua Li(Huawei Cloud)と Wei Song・Xiaolong Chen・Jingbo Miao(Huawei Technologies Ltd.)が産業著者として参加。Alarmagnify システムに FlowXpert を統合し、DCN の 34,488 件インシデントで 10 週間展開した(承認率約 80%、生成時間 22.1 秒)。(Source: [[@2025__KDD__FlowXpert - Expertizing Troubleshooting Workflow Orchestration with Knowledge Base and Multi-Agent Coevolution]]) ## 関連 - ソース: [[@2025__ESEC-FSE__L4 - Diagnosing Large-scale LLM Training Failures via Automated Log Analysis]] / [[@2025__DSN__LLMPrism - Black-box Performance Diagnosis for Production LLM Training Platforms]] / [[@2025__KDD__FlowXpert - Expertizing Troubleshooting Workflow Orchestration with Knowledge Base and Multi-Agent Coevolution]] - 所属研究者: [[Cong Feng]] / [[Yongqiang Yang]] / [[Zengyin Yang]] / [[Rui Ren]] - 共同研究先: [[The Chinese University of Hong Kong]] - 関連プロダクト: [[Platform-X]] / [[L4]] / [[LLMPrism]] - 概念: [[ログ解析]] / [[LLM学習モニタリング]] / [[根本原因分析]]