Acme - yuuk1's Digital Garden

# Acme [[Shanghai AI Laboratory]] の LLM 開発向け GPU データセンター。Seren と Kalos の 2 つの LLM 専用クラスタを持ち、合計 4,704 NVIDIA A100 GPU を備える。各ノードは 8×A100-SXM 80GB と NVLink を持ち、Seren は 286 ノード・2,288 GPU、Kalos は 302 ノード・2,416 GPU の構成である。(Source: [[@2024__USENIX login Online__Understanding Workload Characteristics in Large Language Model Development]]) Acme の 2023 年 3〜8 月トレースは、LLM 開発クラスタが従来 DNN クラスタと異なるジョブ分布を持つことを示す。GPU ジョブの中央値は 2 分と短く、評価ジョブが件数を支配する一方で、事前学習ジョブが GPU 時間の大半を消費する。GPU 利用率は 0% と 100% に二極化し、インフラ障害は失敗件数 11% でも GPU 時間の 82% 超を占める。(Source: [[@2024__USENIX login Online__Understanding Workload Characteristics in Large Language Model Development]]) ## 関連 - 所属: [[Shanghai AI Laboratory]] - 関連システム: [[InternEvo]] - 関連概念: [[GPUクラスタ運用]] / [[LLM分散学習]] / [[耐障害LLM訓練]] / [[LLM学習モニタリング]] - 関連データセット: [[AcmeTrace]]