## Memo
## Memo with LLM
### 論文情報
- **論文のタイトル**: Multiplexing Dynamic Deep Learning Workloads with SLO-awareness in GPU Clusters
- **著者と所属**:
- Wenyan Chen (University of Macau; Shenzhen Institute of Advanced Technology, Chinese Academy of Sciences)
- Chenyang Lu (University of Macau)
- Huanle Xu (University of Macau)
- Kejiang Ye (Shenzhen Institute of Advanced Technology, Chinese Academy of Sciences)
- Chengzhong Xu (University of Macau)
- **カンファレンス/ジャーナル名**: European Conference on Computer Systems (EuroSys)
- **発表年**: 2025
### 論文概要
本論文では、GPUクラスターにおける深層学習推論サービスと訓練タスクの効率的な多重化を実現する[[SLO]]対応システム「Mudi」を提案している。Mudiは区分的線形関数を用いてリソース干渉を正確にモデル化し、空間共有によって42%のGPU利用率向上と最大2.27倍の訓練効率向上を達成している。
### 詳細解説
#### 問題設定
- **入力**: 動的な深層学習推論サービスと訓練タスクのワークロード、厳しいSLO(Service Level Objectives)要件
- **出力**: SLOを満たしながらGPUリソース利用率を最大化するスケジューリング決定
- **必要なデータ**: 推論サービスのレイテンシプロファイル、訓練タスクのリソース要求、リソース干渉パターン
#### 提案手法
Mudiシステムは以下の主要コンポーネントから構成される:
1. **干渉プロファイリング**: 推論サービスのレイテンシを区分的線形関数でモデル化し、リソース干渉を定量化
- L(r) = α × r + β (rはリソース使用率、α、βは干渉パラメータ)
2. **クラスター全体コロケーションポリシー**: スケーラブルな意思決定アルゴリズムにより、訓練タスクと推論サービスの最適な多重化を決定
3. **適応的バッチング**: 動的ワークロードに迅速に適応するためのバッチサイズ調整機構
4. **リソーススケーリング**: ワークロード変動に応じた動的リソース割り当て
#### 新規性
先行研究との比較における主な新規性:
- **動的ワークロード対応**: 従来の静的スケジューリングに対し、動的に変化する推論ワークロードに対応
- **SLO保証**: リソース利用率向上とSLO満足の両立を実現する新しいアプローチ
- **空間共有の活用**: 時間共有ではなく空間共有を用いることで、より効率的な多重化を実現
- **包括的干渉モデル**: 区分的線形関数による正確な干渉予測により、従来手法より精密な制御が可能
#### 実験設定
- **データセット**: ResNet-50、BERT、VGG-16等の代表的深層学習モデルを用いた推論・訓練ワークロード
- **評価指標**:
- GPU利用率 (GPU utilization rate)
- 訓練効率 (Training efficiency)
- SLO満足率 (SLO satisfaction rate)
- レイテンシ分布 (Latency distribution)
- **実験環境**: 大規模GPUクラスター環境でのシミュレーションおよび実機実験
#### 実験結果
論文中で報告された具体的な数値:
- **GPU利用率向上**: 42%の改善を達成
- **訓練効率**: 最大2.27倍の向上
- **SLO満足**: 推論SLOを満たしながら上記性能向上を実現
- **ベースライン比較**: 最新の多重化手法と比較して有意な性能向上を確認
特に、動的ワークロード環境において従来手法では困難だったSLO保証と高いリソース利用率の両立を実現している点が重要な成果である。
## Abstract
深層学習(DL)推論サービスは、大規模クラウドクラスターにおける重要なワークロードとして広く認識されている。しかし、厳しいレイテンシ要件のため、クラウドプロバイダは往々にしてGPUリソースを過剰にプロビジョニングし、利用可能なGPUポテンシャルの未活用を招いている。同一デバイス上でのタスクコロケーションは利用率を向上させることができるが、高度に動的な推論サービスを多重化する際のサービスレベル目標(SLO)保証の確保は、重大なリソース干渉により極めて困難となる。本論文では、大規模クラスター内でのGPUリソース利用最適化を目的として設計された新しいSLO対応システムMudiを紹介する。Mudiは空間共有を通じてDL推論サービスと訓練タスクを効率的に多重化することでこれを実現する。Mudiの基本概念は、リソース干渉を正確に捉える区分的線形関数を用いた推論サービスのレイテンシプロファイリングにある。この干渉の定量化を活用して、Mudiはスケーラブルなクラスター全体のコロケーションポリシーを設計し、リソース効率を最大化するための訓練タスクと推論サービスの最適な多重化を決定する。さらに、Mudiは動的ワークロードに迅速に適応するための適応的バッチングとリソーススケーリングメカニズムを組み込んでいる。実験結果では、Mudiが最新の多重化手法と比較して、推論SLOを満たしながら42%のGPUリソース利用率向上と最大2.27倍の訓練効率向上を達成することが実証されている。