DLプラットフォーム品質問題

# DLプラットフォーム品質問題 ## 定義 DL プラットフォーム品質問題(deep learning platform quality issues)とは、GPU クラスタ上でマルチテナントの DL ジョブを提供する本番プラットフォームにおいて、ジョブの正常実行を妨げる障害・性能劣化・停止の総称である。症状は Job Crash・Job Submission Failure・Abnormal Job Behavior・Job Hang・Cluster Unavailability・Job Slowdown・Data Loss の 7 カテゴリに分類され、根本原因はハードウェア障害・プラットフォーム側障害・ユーザー側障害の 3 次元 22 カテゴリに及ぶ。(Source: [[@2023__ICSE__An Empirical Study on Quality Issues of Deep Learning Platform]]) Microsoft 社内の本番 DL プラットフォーム Platform-X の 360 件の実問題を手動分析した実証研究が唯一の包括的な一次資料である(ICSE 2023)。Platform-X は Azure ML・Amazon SageMaker・Google Cloud AI と同様のアーキテクチャ(Kubernetes・GPU クラスタ・DL Docker・InfiniBand)を持ち、知見の汎用性が高い。 **根本原因の三分割(360 件)**: - ハードウェア障害: 102 件(28.33%)— GPU / Network / Node の 11 カテゴリ - プラットフォーム側障害: 102 件(28.33%)— System Defect / Resource Overload / Platform Maintenance ほか 6 カテゴリ - ユーザー側障害: 156 件(43.34%)— Buggy Code / Policy Violation / Improper Permission ほか 5 カテゴリ **最大の緩和アクション**: - Job Resubmission: 34.72%(ハードウェア・プラットフォーム障害の多くは再投入で回避できる) - User Code Improvement: 24.72% ## 横断的知見 (本概念について複数ソースの突き合わせによる知見は、2 ソース目以降の ingest で蓄積する。) - **同著者グループの後継研究との対応**: [[@2024__ICSE__An Empirical Study on Low GPU Utilization of Deep Learning Jobs]](ICSE 2024)は同じ Platform-X で 400 ジョブ・706 件の問題を分析し、GPU 利用率低下に特化した 4 次元 15 カテゴリを示す。2023 年研究の「Abnormal Job Behavior」と「Resource Overload」の一部が 2024 年研究の「低 GPU 利用率」と重なる可能性がある。同一プラットフォームの連続研究として、症状→根本原因→緩和(2023 年)と性能最適化(2024 年)が補完関係にある。(Source: [[@2023__ICSE__An Empirical Study on Quality Issues of Deep Learning Platform]], [[@2024__ICSE__An Empirical Study on Low GPU Utilization of Deep Learning Jobs]]) - **ユーザー側障害の支配性と DLトレーニングサイレントエラーとの接点**: [[@2023__ICSE__An Empirical Study on Quality Issues of Deep Learning Platform]]の「Buggy Code」(15.00%)は表面化する障害(クラッシュ・ハング)が主だが、[[@2025__OSDI__Training with Confidence - Catching Silent Errors in Deep Learning Training with Automated Proactive Checks]]の「DL 訓練サイレントエラー」は損失・精度に異常が現れないまま進行するバグを対象とする。前者は SRE が発見するが後者はモデル成果物評価まで発見されない——観察可能性の違いが根本にある。ユーザーコードバグという根本原因クラスは共通だが、検知経路が根本的に異なる。(Source: [[@2023__ICSE__An Empirical Study on Quality Issues of Deep Learning Platform]], [[@2025__OSDI__Training with Confidence - Catching Silent Errors in Deep Learning Training with Automated Proactive Checks]]) ## 未解決の問い - 2023 年以降の LLM 訓練ワークロード(数千〜数万 GPU)への拡大で、ハードウェア障害・プラットフォーム障害の比率はどう変化したか。Node Outage が最大カテゴリのままか。 - ユーザー側障害が 43.34% という比率は、Platform-X の運用成熟度やユーザー教育施策でどこまで低減できるか。他社プラットフォームでの比率との比較研究は存在するか。 - Job Resubmission(34.72%)で緩和できる問題を自動化(障害ノードの自動デコミット + ジョブの自動再投入)すれば、SRE の手動対応工数はどの程度削減できるか。実測値のある研究はあるか。 - NCCL タイムアウト起因の Job Crash は LLM 訓練規模の拡大とともに増加しているか。[[NCCL]] の NCCLX 等の後継実装はこの問題を改善したか。 - Platform-X の 2022 年時点の知見と、2025 年以降の大規模 LLM 訓練クラスタ(MegaScale・ByteRobust 等)での知見はどこが変わり、どこが共通か。 ## 関連 - [[@2023__ICSE__An Empirical Study on Quality Issues of Deep Learning Platform]] — 本概念の一次資料 - [[@2024__ICSE__An Empirical Study on Low GPU Utilization of Deep Learning Jobs]] — 同一プラットフォームの後継研究(GPU 利用率特化) - [[@2025__OSDI__Training with Confidence - Catching Silent Errors in Deep Learning Training with Automated Proactive Checks]] — 発見できないバグ(サイレントエラー)の検知 - [[GPUレジリエンス]] — ハードウェア障害の物理層特性 - [[耐障害LLM訓練]] — 大規模訓練における障害対策の体系 - [[DLトレーニングサイレントエラー]] — 症状として現れない DL 訓練バグ - [[GPUクラスタ運用]] — クラスタ運用の広い文脈 - [[Yanjie Gao]] / [[Microsoft Research]] — 研究グループ ## 出典 - [[@2023__ICSE__An Empirical Study on Quality Issues of Deep Learning Platform]] - [[@2024__ICSE__An Empirical Study on Low GPU Utilization of Deep Learning Jobs]]