Understanding the Workload Characteristics of Large Language Model Development

USENIXの記事「Understanding the Workload Characteristics of Large Language Model Development」は、上海人工知能研究所（Shanghai AI Laboratory）のGPUデータセンター「Acme」における6ヶ月間（2023年3月〜8月）のトレースに基づき、LLM開発ワークロードの特性を分析したものです。以下に、数値データを中心とした詳細な要約をまとめます。 --- ### 1. 調査対象のインフラストラクチャ分析対象は、LLM開発に特化した2つの均一なGPUクラスター（SerenとKalos）です。 * **総GPU数:** 4,704基の NVIDIA A100 (80GB) * **Serenクラスター:** 286ノード / 2,288 GPU * **Kalosクラスター:** 302ノード / 2,416 GPU * **ノード構成:** 1ノードあたり 8x A100、1,024GB メモリ、200Gb/s ネットワーク。 ### 2. LLM開発ワークロードの主な特徴従来のディープラーニング（DL）ワークロードと比較して、以下の顕著な違いが示されました。 * **短いジョブ実行時間:** * ジョブ実行時間の**中央値は2分**であり、従来のDLワークロード（Philly、PAI等）と比較して1.7〜7.2倍短い。 * これは、多数の小規模な評価ジョブが含まれることや、高い失敗率（後述）が原因です。 * **分極化したGPU利用率:** * GPU利用率は**0%または100%に極端に集中**しています。 * 利用率の中央値は**Serenで97%、Kalosで99%**と非常に高く（従来のDLクラスターは4%〜48%程度）、LLMが極めて計算集約的であることを示しています。 * **高い失敗率:** * 全ジョブの**約40%が失敗**で終了。 * 「完了」ステータスで終了したジョブが消費したリソースは、全GPU時間の**20〜30%**に過ぎません。 ### 3. パイプライン別のリソース消費 LLM開発の各段階でリソース消費に大きな偏りがあります。 * **事前学習（Pretraining）:** * ジョブ数では全体の**0.9%〜3.2%**に過ぎないが、GPU時間（リソース消費）では**Serenの69.5%、Kalosの94.0%**を占める圧倒的な主力ワークロード。 * 1日以上継続するジョブは5%未満。これは頻繁なハードウェア故障による中断が主な要因です。 * **評価（Evaluation）:** * ジョブ数では過半数を占めるが、リソース消費は極めて少ない（例：Kalosでは**0.8%**）。 * 優先度が低いため、事前学習ジョブの隙間を利用して実行され、待ち時間（キューイング遅延）が最も長い傾向にあります。 ### 4. 失敗（Failure）の原因と影響ジョブの失敗原因を、GPU時間への影響度（Total % of GPU time loss）の順に分類しています。 * **インフラ故障 (Infrastructure): 約82%のGPU時間損失** * 失敗件数では11%に過ぎないが、大規模な事前学習ジョブを直撃するため影響が甚大。 * 主な内訳：**NVLinkError (30.25%)**、**CUDAError (15.77%)**、NodeFailure (14.30%)、ECCError (11.00%)。 * **フレームワークエラー (Framework): 約15%のGPU時間損失** * Dataloaderの問題やOutOfMemoryErrorなどが含まれます。 * **スクリプト/ユーザーエラー (Script): 約3%のGPU時間損失** * 失敗件数（Num）では最多だが、実行初期に判明するためリソース損失は限定的。 **特筆すべき事象:** 7Bモデルの学習時、高度な最適化によりGPUのアイドル時間が極限まで減った結果、GPUが過熱。サーバー室の温度が約5℃上昇し、2023年7月の猛暑も重なってNVLinkエラーやECCエラーが多発しました。 ### 5. システムの最適化成果独自フレームワーク「InternEvo」の進化による効率向上も報告されています。 * **InternEvo V2**は、ハイブリッド並列処理と冗長シャーディング（Redundant Sharding）を改善。 * 1,230億パラメータ(123B)のモデルを2,048基のGPUで学習させた際、V1と比較して**約16%の高速化**（SM利用率の向上とアイドル時間の削減）を達成しました。 --- **結論として、** LLM開発は従来のDL開発よりもはるかにインフラの安定性と耐故障性に依存しており、特に大規模並列実行時におけるハードウェア（NVLinkやネットワーク）の健全性が、開発効率のボトルネックとなっていることが浮き彫りになりました。 ## References [1] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. **[[2017__NeurIPS__Attention Is All You Need|Attention is All ]]**. In Advances in Neural Information Processing Systems, NeurIPS ’17, 2017. [2] Samyam Rajbhandari, Jeff Rasley, Olatunji Ruwase, and Yuxiong He. **[[2020__SC__ZeRO - Memory optimizations Toward Training Trillion Parameter Models]]**. In Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis, SC ’20, 2020. [3] Deepak Narayanan, Mohammad Shoeybi, Jared Casper, Patrick LeGresley, Mostofa Patwary, Vijay Korthikanti, Dmitri Vainbrand, Prethvi Kashinkunti, Julie Bernauer, Bryan Catanzaro, Amar Phanishayee, and Matei Zaharia. **Efficient large-scale language model training on gpu clusters using megatron-lm**. In Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis, SC ’21, 2021. [4] Woosuk Kwon, Zhuohan Li, Siyuan Zhuang, Ying Sheng, Lianmin Zheng, Cody Hao Yu, Joseph Gonzalez, Hao Zhang, and Ion Stoica. **Efficient memory management for large language model serving with pagedattention**. In Proceedings of the ACM SIGOPS 29th Symposium on Operating Systems Principles, SOSP ’23, 2023. [5] Myeongjae Jeon, Shivaram Venkataraman, Amar Phanishayee, Junjie Qian, Wencong Xiao, and Fan Yang. **Analysis of large-scale multi-tenant GPU clusters for DNN training workloads**. In 2019 USENIX Annual Technical Conference, USENIX ATC ’19, 2019. [6] Qinghao Hu, Peng Sun, Shengen Yan, Yonggang Wen, and Tianwei Zhang. **Characterization and prediction of deep learning workloads in large-scale gpu datacenters**. In Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis, SC ’21, 2021. [7] Qizhen Weng, Wencong Xiao, Yinghao Yu, Wei Wang, ChengWang, Jian He, Yong Li, Liping Zhang,Wei Lin, and Yu Ding. **MLaaS in the wild: Workload analysis and scheduling in Large-Scale heterogeneous GPU clusters**. In 19th USENIX Symposium on Networked Systems Design and Implementation, NSDI ’22, 2022. [8] Qiaoling Chen, Diandian Gu, Guoteng Wang, Xun Chen, YingTong Xiong, Ting Huang, Qinghao Hu, Xin Jin, Yonggang Wen, Tianwei Zhang, and Peng Sun. **Internevo:** **Efficient long-sequence large language model** **training via hybrid parallelism and redundant sharding**. arXiv, abs/2401.09149, 2024. [9] Yifan Xiong, Yuting Jiang, Ziyue Yang, Lei Qu, Guoshuai Zhao, Shuguang Liu, Dong Zhong, Boris Pinzur, Jie Zhang, Yang Wang, Jithin Jose, Hossein Pourreza, Jeff Baxter, Kushal Datta, Prabhat Ram, Luke Melton, Joe Chau, Peng Cheng, Yongqiang Xiong, and Lidong Zhou. **Anubis: Towards reliable cloud ai infrastructure** **via proactive validation**. arXiv, abs/2402.06194, 2024. [10] Qinghao Hu, Zhisheng Ye, Zerui Wang, Guoteng Wang, Meng Zhang, Qiaoling Chen, Peng Sun, Dahua Lin, Xiaolin Wang, Yingwei Luo, Yonggang Wen, and Tianwei Zhang. **Characterization of large language model development in the datacenter**. In 21st USENIX Symposium on Networked Systems Design and Implementation, NSDI ’24, 2024.