2024__ICSE__An Empirical Study on Low GPU Utilization of Deep Learning Jobs

## Memo - Micrisoftの研究グループによる、国際会議ICSE'24の論文。 - [[Unlocking LLM Performance with EBPF - Optimizing Training and Inference Pipelines - KubeCon24 Chaina]]で引用されていた論文。 - 多くの研究者がDLプログラム、ジョブ、コンパイラ、フレームワークの障害や欠陥の調査に焦点を当てている（[[2023__ICSE__An Empirical Study on Quality Issues of Deep Learning Platform|Gao+, ICSE2024]]など）なかで、本研究は低GPU利用率に関する初の包括的な実証研究を実施する。 - GPU利用率 > Let 𝑡𝑗 be 𝐾 time points (1 ≤ 𝑗 ≤ 𝐾, and 𝑡 = 𝑡0 < 𝑡1 < · · · < 𝑡𝐾 = 𝑡ˆ) at which 𝑢𝑖,𝑗 —the current GPU utilization of the 𝑖-th GPU (1 ≤ 𝑖 ≤ 𝑁 )—was collected. Therefore, we calculated the average GPU utilization of the 𝑖-th GPU (denoted by 𝑈𝑖 ) and the job (denoted by 𝑈 ) as follows: $ U_{i \in[1, N]}=\frac{\sum_{j=1}^K u_{i, j} \times\left(t_j-t_{(j-1)}\right)}{\hat{t}-t}, \quad U=\frac{\sum_{i=1}^N U_i}{N} . $ ![[Pasted image 20241009232543.png]] ## Memo with LLM ## Abstract ディープラーニングは、数多くのインテリジェントなソフトウェアアプリケーションにおいて重要な役割を果たしている。企業内の開発者は、共有のマルチテナントプラットフォーム上でディープラーニングジョブを投入し実行することで、モデルの効率的なトレーニングとテストを行っている。これらのプラットフォームは通常、ディープラーニングの計算を高速化するために多数のグラフィックプロセッシングユニット（[[GPU]]）を備えている。しかし、一部のジョブでは割り当てられたGPUの利用率がかなり低く、その結果、リソースが大幅に無駄になり、開発の生産性が低下している。本稿では、マイクロソフト社内のディープラーニングプラットフォームから収集した400件の実ジョブ（平均GPU使用率50%以下）を基に、ディープラーニングジョブにおけるGPU使用率の低さに関する包括的な実証研究を提示する。ジョブのメタデータ、実行ログ、実行時間メトリクス、スクリプト、プログラムを詳細に調査した結果、706件のGPU使用率の低さに関する問題を発見した。さらに、共通する根本原因を特定し、それに対応する修正策を提案する。主な調査結果は以下の通りである。（1）ディープラーニングジョブのGPU利用率の低さは、GPU計算の不足とGPU以外のタスクによる中断に起因する。（2）問題の約半数（46.03%）はデータ操作に起因する。（3）問題の45. 問題の45.18%はディープラーニングモデルに関連しており、モデルのトレーニングと評価の両方の段階で発生している。（4）GPU使用率が低い問題のほとんど（84.99%）は、コードやスクリプトを少し修正するだけで解決できる。この調査結果に基づき、開発者がクラウドベースのプラットフォームでGPUをより有効に活用するための潜在的な研究の方向性を提案する。