# The Chinese University of Hong Kong
香港の研究大学(CUHK)。Computer Science and Engineering(CSE)学科の [[Michael R. Lyu]] グループが、ソフトウェア信頼性工学・ログ解析・AIOps の研究を牽引する。(Source: [[@2025__ASE__LogPilot - Intent-aware and Scalable Alert Diagnosis for Large-scale Online Service Systems]])
[[LogPilot]] では CUHK 側として [[Zhihan Jiang]]・Haiyu Huang・[[Michael R. Lyu]] が参加し、[[ByteDance]] と共同で本番アラート診断フレームワークを開発した。[[Cloud-OpsBench]](arXiv 2026)でも CUHK 側として責任著者 [[Guangba Yu]]・Yilun Wang・Haiyu Huang・[[Michael R. Lyu]] らが参加し、[[Sun Yat-sen University]] と共同で Agentic RCA ベンチを開発した。(Source: [[@2026__arXiv__Cloud-OpsBench - A Reproducible Benchmark for Agentic Root Cause Analysis in Cloud Systems]])ログ parsing(Drain・LILAC)・生成的 RCA(COCA)・LLM 訓練障害診断(L4)など、本 wiki の [[ログ解析]] 概念の中核を成す研究の多くがこのグループ由来。
集団通信の信頼性研究にも関与し、[[Mycroft]]([[@2025__SOSP__Mycroft - Tracing Dependencies in Collective Communication Towards Reliable LLM Training]], SOSP 2025)に CUHK 側として [[Yangtao Deng]]・[[Hong Xu]] が参加した。(Source: [[@2025__SOSP__Mycroft - Tracing Dependencies in Collective Communication Towards Reliable LLM Training]])
LLM 訓練プラットフォームの障害・性能診断でも [[Huawei Cloud]] と産学連携する。[[L4]]([[@2025__ESEC-FSE__L4 - Diagnosing Large-scale LLM Training Failures via Automated Log Analysis]], FSE 2025)は CUHK 側の [[Zhihan Jiang]]・[[Guangba Yu]](責任著者)・Junjie Huang・Yichen Li・Renyi Zhong・[[Michael R. Lyu]] が [[Sun Yat-sen University]]・Huawei Cloud と共同でログ解析ベースの訓練障害診断を、[[LLMPrism]]([[@2025__DSN__LLMPrism - Black-box Performance Diagnosis for Production LLM Training Platforms]], DSN 2025)は [[Zhihan Jiang]]・[[Guangba Yu]]・[[Michael R. Lyu]] らが Huawei Cloud と共同でネットワークフローからのブラックボックス性能診断を開発した。(Source: [[@2025__ESEC-FSE__L4 - Diagnosing Large-scale LLM Training Failures via Automated Log Analysis]], [[@2025__DSN__LLMPrism - Black-box Performance Diagnosis for Production LLM Training Platforms]])
## 関連
- ソース: [[@2025__ASE__LogPilot - Intent-aware and Scalable Alert Diagnosis for Large-scale Online Service Systems]] / [[@2026__arXiv__Cloud-OpsBench - A Reproducible Benchmark for Agentic Root Cause Analysis in Cloud Systems]] / [[@2025__SOSP__Mycroft - Tracing Dependencies in Collective Communication Towards Reliable LLM Training]] / [[@2025__ESEC-FSE__L4 - Diagnosing Large-scale LLM Training Failures via Automated Log Analysis]] / [[@2025__DSN__LLMPrism - Black-box Performance Diagnosis for Production LLM Training Platforms]]
- 所属研究者: [[Michael R. Lyu]] / [[Zhihan Jiang]] / [[Guangba Yu]] / [[Yangtao Deng]] / [[Hong Xu]]
- 共同研究先: [[ByteDance]] / [[Sun Yat-sen University]] / [[Huawei Cloud]]
- 関連プロダクト: [[LogPilot]] / [[L4]] / [[LLMPrism]]
- 概念: [[ログ解析]] / [[根本原因分析]] / [[AIOps]] / [[LLM学習モニタリング]]