[Performance — NVIDIA NeMo Framework User Guide](https://docs.nvidia.com/nemo-framework/user-guide/latest/performance/performance-summary.html) 事前学習 [[H100]]だと、230 ~ 854 Model TFLOP / sec / GPU、320 - 14744 tokens / sec / GPU [GitHub - NVIDIA/Megatron-LM: Ongoing research training transformer models at scale](https://github.com/NVIDIA/Megatron-LM?tab=readme-ov-file#performance-benchmarking) ![[Pasted image 20250831230508.png]] - [[MFU]]を維持しながらスケールアウトできている [[Strong Scaling and Weak Scaling]] [[1,000億パラメータ規模の独自LLM「PLaMo-100B」の事前学習 - Preferred Networks Research & Development]] > 上記のような最適化の結果、PLaMo-100Bでは 540TFLOP/s/GPU 程度の計算速度を達成しました。H100のFP8における理論速度 1979 TFLOP/sの約27 %にあたります。 --- [[NVIDIA H100 LLM分散学習におけるMFUの包括的調査報告]]