# Acme
[[Shanghai AI Laboratory]] の LLM 開発向け GPU データセンター。Seren と Kalos の 2 つの LLM 専用クラスタを持ち、合計 4,704 NVIDIA A100 GPU を備える。各ノードは 8×A100-SXM 80GB と NVLink を持ち、Seren は 286 ノード・2,288 GPU、Kalos は 302 ノード・2,416 GPU の構成である。(Source: [[@2024__USENIX login Online__Understanding Workload Characteristics in Large Language Model Development]])
Acme の 2023 年 3〜8 月トレースは、LLM 開発クラスタが従来 DNN クラスタと異なるジョブ分布を持つことを示す。GPU ジョブの中央値は 2 分と短く、評価ジョブが件数を支配する一方で、事前学習ジョブが GPU 時間の大半を消費する。GPU 利用率は 0% と 100% に二極化し、インフラ障害は失敗件数 11% でも GPU 時間の 82% 超を占める。(Source: [[@2024__USENIX login Online__Understanding Workload Characteristics in Large Language Model Development]])
## 関連
- 所属: [[Shanghai AI Laboratory]]
- 関連システム: [[InternEvo]]
- 関連概念: [[GPUクラスタ運用]] / [[LLM分散学習]]