# Alibaba GPU Cluster Trace
[[Alibaba PAI]] の 6,742 GPU 本番クラスタから 2020年7〜8月に収集した 2 か月分のワークロードトレース。Alibaba Cluster Trace Program(https://github.com/alibaba/clusterdata)として公開されており、訓練・推論混在のリアルな MLaaS ワークロードを含む当時最大規模のトレースデータセットである。
## 内容
- ジョブ数: 約 120 万タスク
- インスタンス数: 750 万超
- ユーザー数: 1,300 超
- 収集期間: 2020年7月〜8月(2か月)
- 記録項目: ジョブ・タスク・インスタンス各粒度の到着時刻・完了時刻・GPU/CPU/GPU メモリ/主記憶要求量・実使用量
- マシン情報: ハードウェア仕様(Table 1)と 15 秒ごとのリソース使用率時系列データ
- ワークロード種別: CNN・RNN・GNN ベース推薦モデル・トランスフォーマー言語モデル・強化学習など
## 特徴
訓練と推論が混在し、異種混合 GPU(V100/P100/T4/旧世代各種)を使用する。アプリケーション意味論(訓練 vs 推論の区別)はスケジューラが認識しないため、トレースには明示されないが、一部は手動アノテーション済み。シミュレータのスクリプトも同リポジトリで公開されている。
## 関連
- ソース: [[@2022__NSDI__MLaaS in the Wild - Workload Analysis and Scheduling in Large-Scale Heterogeneous GPU Clusters]]
- 組織: [[Alibaba PAI]] / [[Alibaba Group]]