# LLMPrism
[[Huawei Cloud]] と [[The Chinese University of Hong Kong]] が DSN 2025 で提案した、マルチテナント LLM 訓練プラットフォーム向けの初のブラックボックス性能診断システム。(Source: [[@2025__DSN__LLMPrism - Black-box Performance Diagnosis for Production LLM Training Platforms]])
- テナントはプライバシー配慮でジョブ構成を共有しないため、提供者(SRE)から見ると訓練ジョブはブラックボックスとなる。LLMPrism はスイッチ層で収集する RoCE ネットワークフローデータだけを入力に、(1) ジョブ認識、(2) 並列化戦略(DP/PP)識別、(3) 訓練タイムライン再構築、(4) 多次元の性能診断を段階的に行い、ブラックボックスをホワイトボックス化する。
- LLM 訓練通信の空間的安定性・時間的周期性・並列化ごとの通信特性という 3 つの特徴を手がかりに、disjoint-set でのジョブ認識と Bayesian Online Changepoint Detection でのステップ境界検出を組み合わせる。1 分のフローでもジョブ認識・並列化識別を 100% の正解率で行える。
- [[Platform-X]] に 2024 年 10 月以降本番稼働。訓練タイムライン再構築の誤差は 0.3% 以内、スイッチ層診断で帯域が 100〜180Gb/s から 30〜60Gb/s へ劣化する異常を検知し SRE に自動通知した。
- コード/設定を一切変更せず訓練プロセスから独立に動くため、侵入的な [[XPUTimer]]・Torch Profiler・Strobelight の互換性・オーバーヘッド・可視性の制約を回避する。
## 関連
- ソース: [[@2025__DSN__LLMPrism - Black-box Performance Diagnosis for Production LLM Training Platforms]]
- 開発機関: [[Huawei Cloud]] / [[The Chinese University of Hong Kong]]
- 所属研究者: [[Zhihan Jiang]] / [[Rui Ren]] / [[Michael R. Lyu]]
- デプロイ先: [[Platform-X]]
- 概念: [[LLM学習モニタリング]] / [[並列化戦略]] / [[RDMAネットワーク監視]] / [[変化点検知]] / [[ストラグラー]]