# Platform-X [[Huawei Cloud]] が運営する本番のマルチテナント LLM 訓練/開発プラットフォーム(論文では Company-X が運営する匿名のプラットフォームとして扱われる)。数百の内部ユーザ・パートナー企業に LLM 訓練サービスを提供する。(Source: [[@2025__ESEC-FSE__L4 - Diagnosing Large-scale LLM Training Failures via Automated Log Analysis]]) - [[L4]](FSE 2025)と [[LLMPrism]](DSN 2025)双方のデプロイ先。L4 は 2024 年 6 月から障害管理システムに、LLMPrism は 2024 年 10 月から稼働する。 - テナントはプライバシー配慮でジョブ構成(マシン数・並列化戦略)を提供者と共有せず、提供者から見るとジョブはブラックボックスとなる。この制約が、ネットワークフローからの逆推定([[LLMPrism]])やログ解析([[L4]])という非侵入手法を要請する背景になっている。 - アーキテクチャは Amazon SageMaker・Google Vertex AI 等の主要プラットフォームと類似し、対象ジョブも LLaMA/Vicuna 系などの多様なオープンソースモデルを含む。 ## 関連 - ソース: [[@2025__ESEC-FSE__L4 - Diagnosing Large-scale LLM Training Failures via Automated Log Analysis]] / [[@2025__DSN__LLMPrism - Black-box Performance Diagnosis for Production LLM Training Platforms]] - 運営: [[Huawei Cloud]] - デプロイされた診断系: [[L4]] / [[LLMPrism]] - 概念: [[LLM学習モニタリング]] / [[ログ解析]] / [[LLM分散学習]]