2019__MLSys__MLPerf Training Benchmark

## Memo ## Memo with LLM https://claude.ai/chat/9f3fb07f-9dd5-49a3-93f2-e1ad0c15e80b ### 論文情報 - **論文のタイトル**: MLPERF TRAINING BENCHMARK - **著者と所属**: Peter Mattson¹（Google）, Christine Cheng²（Intel）, Cody Coleman³（Stanford University）, Greg Diamos⁴（Landing AI）, Paulius Micikevicius⁵（NVIDIA）, David Patterson¹⁶（Google/UC Berkeley）他、総計38名の研究者が17の組織から参加 - **カンファレンス/ジャーナル名**: Proceedings of the 3rd MLSys Conference, Austin, TX, USA - **発表年**: 2020年 ### 論文概要本論文は、機械学習（ML）訓練システムの性能を公平に評価するための業界標準ベンチマークMLPerfを提案している。MLPerfは従来の計算ベンチマークでは対処できないML特有の課題（品質とパフォーマンスのトレードオフ、確率的な訓練過程、システムの多様性）を解決し、「time-to-train」という新しい評価指標を導入している。2回のベンチマーク結果から、MLPerfが性能向上とスケーラビリティの改善を促進していることが実証されている。 ### 詳細解説 #### 問題設定 MLベンチマーキングが直面する3つの主要な課題を解決することが目的： 1. **最適化が品質に与える影響**: 訓練のスループットを向上させる最適化が最終的なモデル品質を低下させる可能性がある。例えば、低精度訓練と単精度訓練の精度差は後期のエポックでのみ明らかになる。 2. **システムスケールが訓練時間に与える影響**: 大規模分散システムでは大きなミニバッチサイズが必要だが、これには学習率などのハイパーパラメータ調整が必要で、目標精度到達に必要な反復回数が変化する。例えば、ResNet-50でミニバッチサイズを4Kから16Kに増加させると、同じ精度到達に80エポック以上必要となり、計算量が30%増加する。 3. **実行間のばらつき**: DNN訓練は確率的な要素（ランダムな重み初期化、データ順序）により大きな実行間変動を示す。図1に示すように、同一ハイパーパラメータでも目標精度到達エポック数に大きなばらつきが生じる。 #### 提案手法 MLPerfは以下の要素から構成される包括的ベンチマークシステム： **1. ベンチマークスイート（7タスク）**: - 画像分類: ImageNet上のResNet-50、74.9% Top-1精度 - 物体検出: COCO上のSSD-ResNet-34、21.2 mAP - インスタンスセグメンテーション: COCO上のMask R-CNN、37.7 Box/33.9 Mask min AP - 翻訳（RNN）: WMT EN-DE上のGNMT、21.8 Sacre BLEU - 翻訳（非RNN）: WMT EN-DE上のTransformer、25.0 BLEU - 推薦: MovieLens-20M上のNCF、0.635 HR@10 - 強化学習: 9×9囲碁上のMiniGo、40.0%のプロ手予測率 **2. Time-to-train評価指標**: 従来のスループット測定ではなく、定義された品質目標到達までの時間を測定。タイミングは訓練または検証データに最初に触れた時点から開始し、検証データセットで品質目標を達成した時点で終了。 **3. タイミングルール**: - システム初期化時間（最大20分）を除外 - データ再フォーマット時間を除外 - モデル作成・初期化時間（最大20分）を除外 **4. 複数実行による統計的安定性**: - 視覚タスク: 5回実行（90%のエントリが5%以内） - その他タスク: 10回実行（90%のエントリが10%以内） - 最速・最遅タイムを除外し、残りの算術平均を報告 #### 新規性 **従来研究との差別化**: 1. **DeepBench**: カーネルレベル操作のみ測定、エンドツーエンド効果を捉えられない 2. **Fathom/TBD**: スループットのみ測定、精度を考慮しない 3. **DAWNBench**: Time-to-accuracy概念を導入したが、多様性とシステム比較の公平性に課題 **MLPerfの革新性**: - エンドツーエンドの「time-to-train」指標の標準化 - 品質閾値概念の導入により最適化と精度のバランス確保 - 7つの多様なMLワークロードによる包括的評価 - Closed/Open division による公平性と革新性の両立 - 産業・学術横断コンソーシアムによる標準化推進 #### 実験設定 **データセットと評価指標**（表1参照）: | ベンチマーク | データセット | モデル | 品質閾値 | |-------------|-------------|--------|----------| | 画像分類 | ImageNet | ResNet-50 v1.5 | 74.9% Top-1 | | 軽量物体検出 | COCO 2017 | SSD-ResNet-34 | 21.2 mAP | | 重量物体検出/セグメンテーション | COCO 2017 | Mask R-CNN | 37.7/33.9 min AP | | RNN翻訳 | WMT16 EN-DE | GNMT | 21.8 Sacre BLEU | | Transformer翻訳 | WMT17 EN-DE | Transformer | 25.0 BLEU | | 推薦 | MovieLens-20M | NCF | 0.635 HR@10 | | 強化学習 | 9×9囲碁 | MiniGo | 40.0%専門家手予測 | **提出区分**: - **Closed Division**: 数学的に同等のモデル実装、ハイパーパラメータ制限 - **Open Division**: モデル、最適化手法、データ拡張の革新を許可 **システムカテゴリ**: - **Available**: 商用利用可能 - **Preview**: 60日以内に利用可能予定 - **Research**: 研究用プロトタイプ #### 実験結果 **v0.5からv0.6での性能向上**（図3）: - 16チップシステムでの最高性能が平均1.3倍向上 - 品質閾値も同時に引き上げ（ResNet-50: 74.9%→75.9%、SSD: 21.2→23.0 mAP等） **スケーラビリティ向上**（図4）: - 最高性能達成に必要なチップ数が平均5.5倍増加 - これはより効率的な大規模システム利用を示唆 **統計的検証**: 図1に示すように、同一ハイパーパラメータでもNCFで20エポック、MiniGoで40エポックの変動が観測され、複数回実行の必要性が実証されている。 **システム改善の促進**: 6ヶ月間という短期間で、ハードウェア変更なしに大幅な性能向上が達成されており、MLPerfがソフトウェア最適化とスケーリング改善を効果的に促進していることが示されている。 ## Abstract 機械学習（ML）には、ML向けの数多くの新しいソフトウェアおよびハードウェアソリューションの設計や競争力評価をサポートするための業界標準のパフォーマンスベンチマークが必要です。しかし、MLのトレーニングには、他の領域には見られない3つのユニークなベンチマーク上の課題があります。トレーニングのスループットを向上させる最適化は、ソリューションまでの時間を増大させる可能性があること、トレーニングは確率論的であり、ソリューションまでの時間に大きなばらつきがあること、ソフトウェアおよびハードウェアシステムが多様であり、同じバイナリ、コード、さらにはハイパーパラメータを使用した公平なベンチマークが困難であること、です。そこで我々は、これらの課題を克服する機械学習ベンチマークであるMLPerfを提示します。我々の分析では、複数のベンダーによる2ラウンドの結果から、MLPerfがパフォーマンスとスケーラビリティの改善を促進する効果を定量的に評価しています。