# Perlmutter
NERSC が運用するスパコン。GPUPerf の評価テストベッドの一つ。(Source: [[@2025__arXiv__Efficient Fine-Grained GPU Performance Modeling for Distributed Deep Learning of LLM]])
- 構成: AMD EPYC 7763 + NVIDIA A100-SXM4(40GB HBM2)、4 GPU/ノード、ノード内 NVLink 3.0(600 GB/s)、ノード間 Slingshot-10、最大 32 ノード(128 A100)。
- GPUPerf はマルチ GPU ノード(A100-SXM4 + NVLink)というハードウェアパラダイムを代表する環境として用い、最大 20B・128 GPU で平均予測誤差 **4.98%** を達成した。一部の集合通信をノード内で実行できるため、対照の [[Vista]] より予測の安定性が高い。
## 関連
- ソース: [[@2025__arXiv__Efficient Fine-Grained GPU Performance Modeling for Distributed Deep Learning of LLM]]
- 対照テストベッド: [[Vista]]
- 概念: [[LLM分散学習]] / [[GPUクラスタ運用]] / [[並列化戦略]]