2025__EuroSys__Multiplexing Dynamic Deep Learning Workloads with SLO-awareness in GPU Clusters

## Memo ## Memo with LLM ### 論文情報 - **論文のタイトル**: Multiplexing Dynamic Deep Learning Workloads with SLO-awareness in GPU Clusters - **著者と所属**: - Wenyan Chen (University of Macau; Shenzhen Institute of Advanced Technology, Chinese Academy of Sciences) - Chenyang Lu (University of Macau) - Huanle Xu (University of Macau) - Kejiang Ye (Shenzhen Institute of Advanced Technology, Chinese Academy of Sciences) - Chengzhong Xu (University of Macau) - **カンファレンス/ジャーナル名**: European Conference on Computer Systems (EuroSys) - **発表年**: 2025 ### 論文概要本論文では、GPUクラスターにおける深層学習推論サービスと訓練タスクの効率的な多重化を実現する[[SLO]]対応システム「Mudi」を提案している。Mudiは区分的線形関数を用いてリソース干渉を正確にモデル化し、空間共有によって42%のGPU利用率向上と最大2.27倍の訓練効率向上を達成している。 ### 詳細解説 #### 問題設定 - **入力**: 動的な深層学習推論サービスと訓練タスクのワークロード、厳しいSLO（Service Level Objectives）要件 - **出力**: SLOを満たしながらGPUリソース利用率を最大化するスケジューリング決定 - **必要なデータ**: 推論サービスのレイテンシプロファイル、訓練タスクのリソース要求、リソース干渉パターン #### 提案手法 Mudiシステムは以下の主要コンポーネントから構成される： 1. **干渉プロファイリング**: 推論サービスのレイテンシを区分的線形関数でモデル化し、リソース干渉を定量化 - L(r) = α × r + β (rはリソース使用率、α、βは干渉パラメータ) 2. **クラスター全体コロケーションポリシー**: スケーラブルな意思決定アルゴリズムにより、訓練タスクと推論サービスの最適な多重化を決定 3. **適応的バッチング**: 動的ワークロードに迅速に適応するためのバッチサイズ調整機構 4. **リソーススケーリング**: ワークロード変動に応じた動的リソース割り当て #### 新規性先行研究との比較における主な新規性： - **動的ワークロード対応**: 従来の静的スケジューリングに対し、動的に変化する推論ワークロードに対応 - **SLO保証**: リソース利用率向上とSLO満足の両立を実現する新しいアプローチ - **空間共有の活用**: 時間共有ではなく空間共有を用いることで、より効率的な多重化を実現 - **包括的干渉モデル**: 区分的線形関数による正確な干渉予測により、従来手法より精密な制御が可能 #### 実験設定 - **データセット**: ResNet-50、BERT、VGG-16等の代表的深層学習モデルを用いた推論・訓練ワークロード - **評価指標**: - GPU利用率 (GPU utilization rate) - 訓練効率 (Training efficiency) - SLO満足率 (SLO satisfaction rate) - レイテンシ分布 (Latency distribution) - **実験環境**: 大規模GPUクラスター環境でのシミュレーションおよび実機実験 #### 実験結果論文中で報告された具体的な数値： - **GPU利用率向上**: 42%の改善を達成 - **訓練効率**: 最大2.27倍の向上 - **SLO満足**: 推論SLOを満たしながら上記性能向上を実現 - **ベースライン比較**: 最新の多重化手法と比較して有意な性能向上を確認特に、動的ワークロード環境において従来手法では困難だったSLO保証と高いリソース利用率の両立を実現している点が重要な成果である。 ## Abstract 深層学習（DL）推論サービスは、大規模クラウドクラスターにおける重要なワークロードとして広く認識されている。しかし、厳しいレイテンシ要件のため、クラウドプロバイダは往々にしてGPUリソースを過剰にプロビジョニングし、利用可能なGPUポテンシャルの未活用を招いている。同一デバイス上でのタスクコロケーションは利用率を向上させることができるが、高度に動的な推論サービスを多重化する際のサービスレベル目標（SLO）保証の確保は、重大なリソース干渉により極めて困難となる。本論文では、大規模クラスター内でのGPUリソース利用最適化を目的として設計された新しいSLO対応システムMudiを紹介する。Mudiは空間共有を通じてDL推論サービスと訓練タスクを効率的に多重化することでこれを実現する。Mudiの基本概念は、リソース干渉を正確に捉える区分的線形関数を用いた推論サービスのレイテンシプロファイリングにある。この干渉の定量化を活用して、Mudiはスケーラブルなクラスター全体のコロケーションポリシーを設計し、リソース効率を最大化するための訓練タスクと推論サービスの最適な多重化を決定する。さらに、Mudiは動的ワークロードに迅速に適応するための適応的バッチングとリソーススケーリングメカニズムを組み込んでいる。実験結果では、Mudiが最新の多重化手法と比較して、推論SLOを満たしながら42%のGPUリソース利用率向上と最大2.27倍の訓練効率向上を達成することが実証されている。