[Nemo Megatron (DGXC Benchmarking) \| NVIDIA NGC](https://catalog.ngc.nvidia.com/orgs/nvidia/teams/dgxc-benchmarking/resources/nemo-megatron-dgxc-benchmarking)
- [[TPS]]
* 「どれだけ速く学習が進むか(スループット)」という**結果**を示す指標。
- [[MFU]]
* 「計算リソースをどれだけ効率的に使えているか」という**効率性**を示す指標。
* HFU(Hardware FLOPs Utilization)
* MFUと非常に似ていますが、こちらはGPUなどのハードウェアが持つ理論上のピーク性能(TFLOPS)に対して、実際に達成された計算性能(TFLOPS)の割合を示します。MFUがモデル計算に限定する場合があるのに対し、HFUはハードウェア全体の視点での利用率を示すことがあります。(文脈によってはMFUとHFUが同義で使われることもあります)
* Time to Train (TTT)
* 特定のモデル品質(例:特定の損失値、Perplexity、下流タスクの精度)に到達するまでにかかる総実時間です。最終的な目標達成までの総合的な効率を示します。
---
ChatGPT o3
### 1. 計算効率 (Compute Efficiency)
| 観点 | 指標 | 要旨 |
| ---- | ---- | ---- |
| ハードウェア対比 | **Hardware / Model FLOPs Utilization (HFU・MFU)** | 実行した総 FLOPs ÷ GPU 理論ピーク。PaLM・GPT-4 論文が採用 ([Transformer FLOPs - Adam Casson](https://www.adamcasson.com/posts/transformer-flops), [Llama3におけるバッチサイズの設定について - Zenn](https://zenn.dev/nariaki3551/scraps/6221fb5a306064)) |
| 実効演算性能 | **実効 TFLOPs / GPU** | プロファイラで得られる 1 GPU 当たりの演算量 |
| スループット | **Tokens (or Sequences) per second / per GPU** | MLPerf LLM トラックなどで標準化 ([NVIDIA Blackwell Platform Sets New LLM Inference Records ...](https://developer.nvidia.com/blog/nvidia-blackwell-platform-sets-new-llm-inference-records-in-mlperf-inference-v4-1/)) |
| 並列効率 | **Scaling / Parallel Efficiency** | N 台 GPU でのスループット ÷ (1 台値 × N) ——90 %超が理想 ([Efficient Training of Large Language Models on Distributed ...](https://arxiv.org/abs/2407.20018)) |
### 2. 時間・コスト効率
| 指標 | 意味 |
| ---- | ---- |
| **Time-to-Train (TTT)** | 既定トークン数または損失値へ到達するまでの経過時間。MLPerf Training が採用 ([新たな高みへのスケーリング: MLPerf Training の NVIDIA の結果 ...](https://blogs.nvidia.co.jp/blog/mlperf-training-benchmarks/)) |
| **Time-to-Quality / Accuracy** | MMLU・Hellaswag など品質指標の目標達成までの時間 |
| **Training Cost (USD / B tokens)** | 電気代・クラウド費を含む実コスト |
| **Training Overhead Ratio (TOR)** | 障害復旧やチェックポイント待ち時間の割合 ([Training Overhead Ratio: A Practical Reliability Metric for ...](https://arxiv.org/pdf/2408.07482)) |
### 3. エネルギー・環境効率
* **Energy per Token / Joules per Sample** – MLCommons サステナビリティシートで必須
* **TFLOPs per Watt** – GPU 世代比較の定番
* **CO₂-e Emissions** – kg-CO₂e / ジョブ
### 4. リソース利用効率
* **GPU メモリ使用率** – Flash-Attention や 8-bit Optimizer の効果測定
* **Network BW Utilization** – All-reduce 時の帯域活用率
* **Parameter-to-Optimizer-State Ratio** – 1 パラメータ当たりの総メモリ (典型 16–32 B → 4–6 B へ削減可能)
### 5. 安定性・信頼性
* **Mean Time Between Failure (MTBF)**、**Checkpoint Recovery Time**
* **Successful Epoch Ratio** – 障害再試行なしで完了したエポック比率
### 6. 標準ベンチマーク
* **MLPerf Training v4 LLM Track** – TTT・tokens/s・エネルギー・スケーリング効率を公式報告項目として定義 ([新たな高みへのスケーリング: MLPerf Training の NVIDIA の結果 ...](https://blogs.nvidia.co.jp/blog/mlperf-training-benchmarks/), [New AI benchmarks test speed of running AI applications](https://www.reuters.com/technology/artificial-intelligence/new-ai-benchmarks-test-speed-running-ai-applications-2025-04-02/))
* 企業・学術コンテスト(Open LLM Training Efficiency Challenge など)でも同様のテンプレートが普及中
---
#### 使い分けのヒント
1. **HFU / MFU** でハードウェア上の「理論ピークとの差分」を可視化
2. **Throughput & TTT** でユーザ視点の「時間短縮効果」を提示
3. **Energy & Cost** でビジネス・環境面の持続可能性を示す
4. **Scaling & Reliability** で大規模クラスター特有のボトルネックを洗い出す
これらを 4 象限で整理すれば、分散 LLM 学習パイプラインの改善ポイントを網羅的に捉えられます。次の発表資料に盛り込む際は「指標の定義」と「測定条件 (モデル規模・GPU 世代・並列手法)」を必ず併記すると、聴衆が比較しやすくなります。