LLM学習の効率性指標 - yuuk1's Digital Garden

[Nemo Megatron (DGXC Benchmarking) \| NVIDIA NGC](https://catalog.ngc.nvidia.com/orgs/nvidia/teams/dgxc-benchmarking/resources/nemo-megatron-dgxc-benchmarking) - [[TPS]] * 「どれだけ速く学習が進むか（スループット）」という**結果**を示す指標。 - [[MFU]] * 「計算リソースをどれだけ効率的に使えているか」という**効率性**を示す指標。 * HFU（Hardware FLOPs Utilization） * MFUと非常に似ていますが、こちらはGPUなどのハードウェアが持つ理論上のピーク性能（TFLOPS）に対して、実際に達成された計算性能（TFLOPS）の割合を示します。MFUがモデル計算に限定する場合があるのに対し、HFUはハードウェア全体の視点での利用率を示すことがあります。（文脈によってはMFUとHFUが同義で使われることもあります） * Time to Train (TTT) * 特定のモデル品質（例：特定の損失値、Perplexity、下流タスクの精度）に到達するまでにかかる総実時間です。最終的な目標達成までの総合的な効率を示します。 --- ChatGPT o3 ### 1. 計算効率 (Compute Efficiency) | 観点 | 指標 | 要旨 | | ---- | ---- | ---- | | ハードウェア対比 | **Hardware / Model FLOPs Utilization (HFU・MFU)** | 実行した総 FLOPs ÷ GPU 理論ピーク。PaLM・GPT-4 論文が採用 ([Transformer FLOPs - Adam Casson](https://www.adamcasson.com/posts/transformer-flops), [Llama3におけるバッチサイズの設定について - Zenn](https://zenn.dev/nariaki3551/scraps/6221fb5a306064)) | | 実効演算性能 | **実効 TFLOPs / GPU** | プロファイラで得られる 1 GPU 当たりの演算量 | | スループット | **Tokens (or Sequences) per second / per GPU** | MLPerf LLM トラックなどで標準化 ([NVIDIA Blackwell Platform Sets New LLM Inference Records ...](https://developer.nvidia.com/blog/nvidia-blackwell-platform-sets-new-llm-inference-records-in-mlperf-inference-v4-1/)) | | 並列効率 | **Scaling / Parallel Efficiency** | N 台 GPU でのスループット ÷ (1 台値 × N) ——90 %超が理想 ([Efficient Training of Large Language Models on Distributed ...](https://arxiv.org/abs/2407.20018)) | ### 2. 時間・コスト効率 | 指標 | 意味 | | ---- | ---- | | **Time-to-Train (TTT)** | 既定トークン数または損失値へ到達するまでの経過時間。MLPerf Training が採用 ([新たな高みへのスケーリング: MLPerf Training の NVIDIA の結果 ...](https://blogs.nvidia.co.jp/blog/mlperf-training-benchmarks/)) | | **Time-to-Quality / Accuracy** | MMLU・Hellaswag など品質指標の目標達成までの時間 | | **Training Cost (USD / B tokens)** | 電気代・クラウド費を含む実コスト | | **Training Overhead Ratio (TOR)** | 障害復旧やチェックポイント待ち時間の割合 ([Training Overhead Ratio: A Practical Reliability Metric for ...](https://arxiv.org/pdf/2408.07482)) | ### 3. エネルギー・環境効率 * **Energy per Token / Joules per Sample** – MLCommons サステナビリティシートで必須 * **TFLOPs per Watt** – GPU 世代比較の定番 * **CO₂-e Emissions** – kg-CO₂e / ジョブ ### 4. リソース利用効率 * **GPU メモリ使用率** – Flash-Attention や 8-bit Optimizer の効果測定 * **Network BW Utilization** – All-reduce 時の帯域活用率 * **Parameter-to-Optimizer-State Ratio** – 1 パラメータ当たりの総メモリ (典型 16–32 B → 4–6 B へ削減可能) ### 5. 安定性・信頼性 * **Mean Time Between Failure (MTBF)**、**Checkpoint Recovery Time** * **Successful Epoch Ratio** – 障害再試行なしで完了したエポック比率 ### 6. 標準ベンチマーク * **MLPerf Training v4 LLM Track** – TTT・tokens/s・エネルギー・スケーリング効率を公式報告項目として定義 ([新たな高みへのスケーリング: MLPerf Training の NVIDIA の結果 ...](https://blogs.nvidia.co.jp/blog/mlperf-training-benchmarks/), [New AI benchmarks test speed of running AI applications](https://www.reuters.com/technology/artificial-intelligence/new-ai-benchmarks-test-speed-running-ai-applications-2025-04-02/)) * 企業・学術コンテスト（Open LLM Training Efficiency Challenge など）でも同様のテンプレートが普及中 --- #### 使い分けのヒント 1. **HFU / MFU** でハードウェア上の「理論ピークとの差分」を可視化 2. **Throughput & TTT** でユーザ視点の「時間短縮効果」を提示 3. **Energy & Cost** でビジネス・環境面の持続可能性を示す 4. **Scaling & Reliability** で大規模クラスター特有のボトルネックを洗い出すこれらを 4 象限で整理すれば、分散 LLM 学習パイプラインの改善ポイントを網羅的に捉えられます。次の発表資料に盛り込む際は「指標の定義」と「測定条件 (モデル規模・GPU 世代・並列手法)」を必ず併記すると、聴衆が比較しやすくなります。