# Alibaba PAI [[Alibaba Group]] が提供するクラウドの ML-as-a-Service (MLaaS) 基盤。正式名称は Machine Learning Platform for AI(PAI)。2018 年に開始し、数万の企業・個人開発者が利用する中国最大級の MLaaS プラットフォームの一つ。 ## 構成 特徴量エンジニアリング・モデル訓練・評価・推論・AutoML を含む ML パイプライン全体をカバーするオールインワン基盤。ユーザーは TensorFlow・PyTorch・Graph-Learn・RLlib などの多様なフレームワークで ML ジョブを投入できる。各ジョブはパラメータサーバ・ワーカー・評価器などの役割を持つタスクに分解され、Docker コンテナでインスタンス化される。スケジューリングは[[Fuxi]](ローカリティツリーベースの分散スケジューリングシステム)が担う。 GPU は V100(NVLink 接続)・P100・T4・旧世代各種を含む異種混合構成で、6,742 GPU(2020年トレース収集時点)を保有する。 ## トレース公開 2020年7〜8月収集の 2 か月分ワークロードトレースを Alibaba Cluster Trace Program(https://github.com/alibaba/clusterdata)として公開。120 万タスク・750 万超インスタンス・1,300 超ユーザーのデータを含む、当時最大規模の MLaaS トレースである。 ## 関連 - ソース: [[@2022__NSDI__MLaaS in the Wild - Workload Analysis and Scheduling in Large-Scale Heterogeneous GPU Clusters]] - 組織: [[Alibaba Group]] - システム: [[Fuxi]] / [[AntMan]] - トレース: [[Alibaba GPU Cluster Trace]]