[Performance — NVIDIA NeMo Framework User Guide](https://docs.nvidia.com/nemo-framework/user-guide/latest/performance/performance-summary.html)
事前学習 [[H100]]だと、230 ~ 854 Model TFLOP / sec / GPU、320 - 14744 tokens / sec / GPU
[GitHub - NVIDIA/Megatron-LM: Ongoing research training transformer models at scale](https://github.com/NVIDIA/Megatron-LM?tab=readme-ov-file#performance-benchmarking)
![[Pasted image 20250831230508.png]]
- [[MFU]]を維持しながらスケールアウトできている [[Strong Scaling and Weak Scaling]]
[[1,000億パラメータ規模の独自LLM「PLaMo-100B」の事前学習 - Preferred Networks Research & Development]]
> 上記のような最適化の結果、PLaMo-100Bでは 540TFLOP/s/GPU 程度の計算速度を達成しました。H100のFP8における理論速度 1979 TFLOP/sの約27 %にあたります。
---
[[NVIDIA H100 LLM分散学習におけるMFUの包括的調査報告]]