# AcmeTrace [[@2024__NSDI__Characterization of Large Language Model Development in the Datacenter]] が公開する [[Acme]] データセンターの 6 か月分本番トレース。Seren(2,288 A100)・Kalos(2,416 A100)を対象に、ジョブログ(Seren 368K CPU + 664K GPU、Kalos 42K CPU + 20K GPU)、[[Prometheus]]/[[DCGM]]/IPMI のハードウェア監視(15 秒粒度)、stdout/stderr ランタイムログ、代表ジョブの 1 ms 粒度 DCGM プロファイリングを含む。LLM 専用クラスタとして既存 DNN トレース([[Philly]]・[[Helios]]・[[PAI]])に並ぶ参照点。配布先 <https://github.com/InternLM/AcmeTrace>。(Source: [[@2024__NSDI__Characterization of Large Language Model Development in the Datacenter]])