# Alibaba GPU Cluster Trace [[Alibaba PAI]] の 6,742 GPU 本番クラスタから 2020年7〜8月に収集した 2 か月分のワークロードトレース。Alibaba Cluster Trace Program(https://github.com/alibaba/clusterdata)として公開されており、訓練・推論混在のリアルな MLaaS ワークロードを含む当時最大規模のトレースデータセットである。 ## 内容 - ジョブ数: 約 120 万タスク - インスタンス数: 750 万超 - ユーザー数: 1,300 超 - 収集期間: 2020年7月〜8月(2か月) - 記録項目: ジョブ・タスク・インスタンス各粒度の到着時刻・完了時刻・GPU/CPU/GPU メモリ/主記憶要求量・実使用量 - マシン情報: ハードウェア仕様(Table 1)と 15 秒ごとのリソース使用率時系列データ - ワークロード種別: CNN・RNN・GNN ベース推薦モデル・トランスフォーマー言語モデル・強化学習など ## 特徴 訓練と推論が混在し、異種混合 GPU(V100/P100/T4/旧世代各種)を使用する。アプリケーション意味論(訓練 vs 推論の区別)はスケジューラが認識しないため、トレースには明示されないが、一部は手動アノテーション済み。シミュレータのスクリプトも同リポジトリで公開されている。 ## 関連 - ソース: [[@2022__NSDI__MLaaS in the Wild - Workload Analysis and Scheduling in Large-Scale Heterogeneous GPU Clusters]] - 組織: [[Alibaba PAI]] / [[Alibaba Group]]