# Perlmutter NERSC が運用するスパコン。GPUPerf の評価テストベッドの一つ。(Source: [[@2025__arXiv__Efficient Fine-Grained GPU Performance Modeling for Distributed Deep Learning of LLM]]) - 構成: AMD EPYC 7763 + NVIDIA A100-SXM4(40GB HBM2)、4 GPU/ノード、ノード内 NVLink 3.0(600 GB/s)、ノード間 Slingshot-10、最大 32 ノード(128 A100)。 - GPUPerf はマルチ GPU ノード(A100-SXM4 + NVLink)というハードウェアパラダイムを代表する環境として用い、最大 20B・128 GPU で平均予測誤差 **4.98%** を達成した。一部の集合通信をノード内で実行できるため、対照の [[Vista]] より予測の安定性が高い。 ## 関連 - ソース: [[@2025__arXiv__Efficient Fine-Grained GPU Performance Modeling for Distributed Deep Learning of LLM]] - 対照テストベッド: [[Vista]] - 概念: [[LLM分散学習]] / [[GPUクラスタ運用]] / [[並列化戦略]]