# Philly
[[Microsoft]] の DNN 訓練向けマルチテナント GPU クラスタ管理サービス。ユーザーの Docker コンテナを GPU クラスタ上に配置し、YARN Fair Scheduler を基盤に仮想クラスタごとの quota と余剰 GPU の共有を管理する。分散学習のため、要求 GPU を同時に確保するギャングスケジューリングと、同一サーバ/同一 RDMA ドメインへの局所性を重視した配置を行う。(Source: [[@2019__USENIX ATC__Analysis of Large-Scale Multi-Tenant GPU Clusters for DNN Training Workloads]])
[[philly-traces]] は Philly から公開されたスケジューラトレースであり、ジョブ到着、要求 GPU 数、配置、実行時間などを含む。
## 関連
- ソース: [[@2019__USENIX ATC__Analysis of Large-Scale Multi-Tenant GPU Clusters for DNN Training Workloads]]
- リポジトリ/データセット: [[philly-traces]]
- 概念: [[GPUクラスタスケジューリング]] / [[GPUクラスタ運用]] / [[LLM分散学習]]
- 組織: [[Microsoft]]