Philly - yuuk1's Digital Garden

# Philly [[Microsoft]] の DNN 訓練向けマルチテナント GPU クラスタ管理サービス。ユーザーの Docker コンテナを GPU クラスタ上に配置し、YARN Fair Scheduler を基盤に仮想クラスタごとの quota と余剰 GPU の共有を管理する。分散学習のため、要求 GPU を同時に確保するギャングスケジューリングと、同一サーバ/同一 RDMA ドメインへの局所性を重視した配置を行う。(Source: [[@2019__USENIX ATC__Analysis of Large-Scale Multi-Tenant GPU Clusters for DNN Training Workloads]]) [[philly-traces]] は Philly から公開されたスケジューラトレースであり、ジョブ到着、要求 GPU 数、配置、実行時間などを含む。 ## 関連 - ソース: [[@2019__USENIX ATC__Analysis of Large-Scale Multi-Tenant GPU Clusters for DNN Training Workloads]] - リポジトリ/データセット: [[philly-traces]] - 概念: [[GPUクラスタスケジューリング]] / [[GPUクラスタ運用]] / [[LLM分散学習]] - 組織: [[Microsoft]]