# Alibaba PAI
[[Alibaba Group]] が提供するクラウドの ML-as-a-Service (MLaaS) 基盤。正式名称は Machine Learning Platform for AI(PAI)。2018 年に開始し、数万の企業・個人開発者が利用する中国最大級の MLaaS プラットフォームの一つ。
## 構成
特徴量エンジニアリング・モデル訓練・評価・推論・AutoML を含む ML パイプライン全体をカバーするオールインワン基盤。ユーザーは TensorFlow・PyTorch・Graph-Learn・RLlib などの多様なフレームワークで ML ジョブを投入できる。各ジョブはパラメータサーバ・ワーカー・評価器などの役割を持つタスクに分解され、Docker コンテナでインスタンス化される。スケジューリングは[[Fuxi]](ローカリティツリーベースの分散スケジューリングシステム)が担う。
GPU は V100(NVLink 接続)・P100・T4・旧世代各種を含む異種混合構成で、6,742 GPU(2020年トレース収集時点)を保有する。
## トレース公開
2020年7〜8月収集の 2 か月分ワークロードトレースを Alibaba Cluster Trace Program(https://github.com/alibaba/clusterdata)として公開。120 万タスク・750 万超インスタンス・1,300 超ユーザーのデータを含む、当時最大規模の MLaaS トレースである。
## 関連
- ソース: [[@2022__NSDI__MLaaS in the Wild - Workload Analysis and Scheduling in Large-Scale Heterogeneous GPU Clusters]]
- 組織: [[Alibaba Group]]
- システム: [[Fuxi]] / [[AntMan]]
- トレース: [[Alibaba GPU Cluster Trace]]