Alibaba PAI - yuuk1's Digital Garden

# Alibaba PAI [[Alibaba Group]] が提供するクラウドの ML-as-a-Service (MLaaS) 基盤。正式名称は Machine Learning Platform for AI（PAI）。2018 年に開始し、数万の企業・個人開発者が利用する中国最大級の MLaaS プラットフォームの一つ。 ## 構成特徴量エンジニアリング・モデル訓練・評価・推論・AutoML を含む ML パイプライン全体をカバーするオールインワン基盤。ユーザーは TensorFlow・PyTorch・Graph-Learn・RLlib などの多様なフレームワークで ML ジョブを投入できる。各ジョブはパラメータサーバ・ワーカー・評価器などの役割を持つタスクに分解され、Docker コンテナでインスタンス化される。スケジューリングは[[Fuxi]]（ローカリティツリーベースの分散スケジューリングシステム）が担う。 GPU は V100（NVLink 接続）・P100・T4・旧世代各種を含む異種混合構成で、6,742 GPU（2020年トレース収集時点）を保有する。 ## トレース公開 2020年7〜8月収集の 2 か月分ワークロードトレースを Alibaba Cluster Trace Program（https://github.com/alibaba/clusterdata）として公開。120 万タスク・750 万超インスタンス・1,300 超ユーザーのデータを含む、当時最大規模の MLaaS トレースである。 ## 関連 - ソース: [[@2022__NSDI__MLaaS in the Wild - Workload Analysis and Scheduling in Large-Scale Heterogeneous GPU Clusters]] - 組織: [[Alibaba Group]] - システム: [[Fuxi]] / [[AntMan]] - トレース: [[Alibaba GPU Cluster Trace]]