@2019__NeurIPS__GPipe Easy Scaling with Micro-Batch Pipeline Parallelism

> [!abstract] 概要 > ディープニューラルネットワークの容量を増やすことは、複数の機械学習タスクでモデル品質を向上させる有効なアプローチとして知られている。多くのケースでは、モデル容量を単一加速器のメモリ限界を超えて増やすには、特殊なアルゴリズムやインフラが必要であった。これらの解法はしばしばアーキテクチャ固有であり、他のタスクに転用できない。タスク非依存で効率的なモデル並列化という要求に応えるため、本稿は GPipe を提案する。GPipe はパイプライン並列化ライブラリであり、層の系列として表現できる任意のネットワークをスケーリングできる。異なるサブ層系列を別々の加速器にパイプライン化することで、様々なネットワークを巨大規模へ効率的にスケーリングする柔軟性を提供する。また、新規のバッチ分割パイプライン化アルゴリズムを採用し、モデルを複数の加速器に分割したときにほぼ線形のスピードアップを実現する。2 つの異なるタスク——(i) 画像分類: 557M パラメータ AmoebaNet モデルを訓練し ImageNet-2012 で top-1 正解率 84.4% を達成、(ii) 多言語ニューラル機械翻訳: 100 言語以上にまたがるコーパスで単一の 60 億パラメータ 128 層 Transformer モデルを訓練し全双言語モデルを上回る品質を達成——で GPipe の優位性を示す。 ## 論文情報 | 項目 | 内容 | |------|------| | タイトル | GPipe: Easy Scaling with Micro-Batch Pipeline Parallelism | | 著者 | Yanping Huang, Youlong Cheng, Ankur Bapna, Orhan Firat, Mia Xu Chen, Dehao Chen, HyoukJoong Lee, Jiquan Ngiam, Quoc V. Le, Yonghui Wu, Zhifeng Chen | | 所属 | Google Brain | | 投稿 | arXiv:1811.06965 (2018-11)、NeurIPS 2019 採択 | | URL | https://arxiv.org/abs/1811.06965 | | フレームワーク | Lingvo (tf.compat.v1 ベース) | ## 概要 GPipe は「層の系列として表現できる任意のニューラルネットワーク」を複数の加速器にまたがってスケーリングする汎用モデル並列化ライブラリである。ユーザーが指定するのは分割数 K・マイクロバッチ数 M・層の定義のみという単純なインターフェースを持つ。同期的なミニバッチ確率的勾配降下法を採用し、重みストール(非同期更新による重みの陳腐化)を生じさせない。 ## 問題設定 - 大規模ニューラルネットワークの訓練では、単一 GPU/TPU のメモリ限界がスケーリングの制約になる。 - 従来のモデル並列化手法はアーキテクチャ固有であり、他のタスクへ転用できなかった。 - 素朴なモデル並列化(各デバイスが順番に計算)ではデバイスの逐次依存性によりデバイス利用率が著しく低下する。 - PipeDream などの非同期パイプライン手法は重みストール問題を抱え、複数世代の重みコピーを保持しなければならずメモリ効率が悪い。 ## 提案手法 ### インターフェース L 層からなるネットワークを K 個のセル(cell)に分割する。各セルは連続した層群で構成され、別々の加速器に配置される。ユーザーが指定するのは以下の 3 つだけである。 1. モデル分割数 K 2. マイクロバッチ数 M 3. L 層の定義(順伝播関数 $f_i$、パラメータ $w_i$、オプションの計算コスト推定関数 $c_i$) 分割コストの均等化はヒューリスティックにより自動で行われる(各セルの推定コスト分散を最小化)。 ### パイプライン並列化アルゴリズム 1. ミニバッチ(サイズ N)を M 個の等サイズのマイクロバッチに分割する。 2. M 個のマイクロバッチを K 個の加速器にパイプライン化して順伝播させる。 3. 逆伝播では各マイクロバッチの勾配を、対応する順伝播で使ったモデルパラメータを用いて計算する。 4. ミニバッチ末尾で全マイクロバッチの勾配を積算し、全加速器に同期的に適用する。この同期的な更新により、分割数に関わらず訓練の一貫性が保たれる。 ### 再マテリアライゼーション(活性化再計算) メモリ削減のため、GPipe は逆伝播時に活性化を再計算する(英語では "re-materialization" または gradient checkpointing とも呼ばれる)。 - **順伝播時**: 各加速器はセル境界の出力活性化のみを保存する。中間活性化は破棄する。 - **逆伝播時**: 第 k 加速器は合成順伝播関数 $F_k$ を再計算して必要な中間活性化を復元してから勾配を計算する。 - **効果**: ピーク活性化メモリが $O(N+(L/K)\times(N/M))$ に削減される。ここで $L/K$ は各セルの層数、$N/M$ はマイクロバッチサイズである(再計算・分割なしでは $O(N \times L)$)。 ### バブルオーバーヘッドパイプライン化によりパイプラインバブル(各加速器のアイドル時間)が生じる。バブルの時間的比率は $O((K-1)/(M+K-1))$ であり、マイクロバッチ数を増やすほど小さくなる。実験では **M ≥ 4K のときバブルオーバーヘッドはほぼ無視可能** になることを確認した。 ### 通信オーバーヘッド GPipe は隣接する加速器間でのみセル境界の活性化テンソルを転送するため通信量が少ない。NVLink などの高速インターコネクトがない GPU 環境(PCI-E 経由)でも、通信帯域がボトルネックにならないことを実証した。 ### バッチ正規化への対応バッチ正規化を使うネットワークに対しては、各マイクロバッチの統計量を用いて訓練し、推論時用に全マイクロバッチの移動平均を追跡する。 ## 新規性 - **アーキテクチャ非依存のパイプライン並列化**: 層の系列として表現できる任意のモデルに適用可能。 - **バッチ分割 + 再マテリアライゼーションの組み合わせ**: 大量のマイクロバッチを可能にしバブルを最小化しつつメモリも削減する。 - **同期的な勾配更新**: PipeDream(非同期・重みストール・複数バージョン管理が必要)と対照的に、分割数に関わらず一貫した訓練を保証する。 - **低通信設計**: SPMD/テンソル並列(AllReduce が多発)と異なり、セル境界の活性化転送のみで済むため高速インターコネクト不要。 ## 実験設定 ### 最大モデルサイズ実験 - GPU 実験: NVIDIA GPU(8GB/枚)、AmoebaNet-D - TPU 実験: Cloud TPUv2(8GB/コア)、AmoebaNet-D; Cloud TPUv3(16GB/コア)、Transformer - Transformer 設定: 語彙サイズ 32K、系列長 1024、バッチサイズ 32、モデル次元 2048、FF 隠れ次元 8192、注意ヘッド 32 ### 効率実験 - AmoebaNet-D(18, 256) および Transformer-48 を異なる K・M 設定で評価 - NVIDIA P100 GPU(NVLink なし)での通信コスト評価 ### 画像分類実験 - AmoebaNet-B(18, 512)、557M パラメータ、入力 480×480、ImageNet 2012 - K=4 分割、転移学習(CIFAR-10/100・Stanford Cars・Oxford Pets・Food-101 等 7 データセット) ### 機械翻訳実験 - 102 言語+英語のコーパス(合計 250 億訓練例) - モデルサイズ: 400M・1.3B(深/幅)・3B・6B パラメータ - 温度ベースサンプリング(多言語 BERT と同方式) ## 実験結果 ### メモリ削減効果 - AmoebaNet 単一加速器: 再マテリアライゼーションにより 82M → 318M パラメータ対応(単一 TPUv2、活性化ピーク 6.26GB → 3.46GB) - Transformer 単一 TPUv3: 再マテリアライゼーションで 282M → 785M パラメータ(2.7 倍) - Pipeline-128(Transformer): 83.9B パラメータまで拡大(単一加速器比 298 倍) ### スループット(Table 2: TPU) | K | M | AmoebaNet | Transformer | |---|---|-----------|-------------| | 2 | 1 | 1.00 | 1.00 | | 4 | 1 | 1.13 | 1.07 | | 8 | 1 | 1.38 | 1.30 | | 2 | 32| 1.21 | 1.80 | | 4 | 32| 1.84 | 3.40 | | 8 | 32| 3.48 | 6.30 | - Transformer は M=32 で 8 加速器時に 6.3× のほぼ線形スピードアップ。 - AmoebaNet は計算不均衡により準線形(3.48×)。 - M=1(マイクロバッチなし)ではパイプライン並列化の効果がほぼ消失する。 ### GPU(NVLink なし)でのスループット(Table 3) - AmoebaNet K=8, M=32: 2.7× - Transformer K=8, M=32: 3.3× - 高速インターコネクトなしでも線形に近いスピードアップを達成。 ### 画像分類 - ImageNet-2012: 84.4% top-1(当時の SOTA を更新。前 SOTA は Real+ 2018 の 83.9%) - CIFAR-10: 99.0% (前 SOTA 98.5%) - CIFAR-100: 91.3% (前 SOTA 89.3%) - Oxford Pets: 95.9% (前 SOTA 93.8%) ### 多言語翻訳 - 400M → 1.3B(深): 全言語で大幅な品質向上、特に低リソース言語での改善が顕著。 - 1.3B 深 vs 幅: 高リソース言語では同等だが、低リソース言語では深いモデルが大幅優位 → 深さが汎化・転移に有効。 - バッチサイズ 260K → 4M トークン: BLEU +1.79、損失(NLL)−0.12(Table 5)。 - 6B パラメータ Transformer が全 100 言語対で双言語 350M パラメータ Transformer Big を上回った。 ### 訓練安定化 - 深いモデルで活性化の尖度(正の超過尖度)とデータノイズの組み合わせにより勾配爆発が頻発。 - 対策: (i) Fixup 初期化(各 FF 層の初期化を層数でスケールダウン)+ (ii) ロジットクリッピング(ソフトマックス前の活性化を一定値でクリップ)。 **Table 2: モデル構成** ![[_attachments/arxiv-1811.06965/table2-model.png]] (Table 2. Normalized training throughput using GPipe に関するモデル構成を示す。) **Table 3: 性能評価** ![[_attachments/arxiv-1811.06965/table3-performance.png]] (Table 3. 性能評価の結果を示す。) **Table 5: 表** ![[_attachments/arxiv-1811.06965/table5-table.png]] (Table 5. 論文中の主要な表を示す。) ## 考察 GPipe のパイプライン並列化は通信オーバーヘッドが低いため、高速インターコネクトのない環境でも有効に機能する。これは SPMD(Mesh-TensorFlow 等)がハードウェアリソースに高い要求を持つのとは対照的である。一方、GPipe には以下の制約がある。 1. **単一層が単一加速器に収まる前提**: 1 層が加速器メモリを超えるケースは現アルゴリズムでは対応できない。 2. **バッチ統計を跨ぐ演算の複雑性**: BatchNorm のようにバッチ全体にわたる統計を必要とする層では、マイクロバッチ分割のための複雑な対処が必要になる。 3. **不均衡な分割**: 層ごとにメモリ・計算量が異なる場合(AmoebaNet はこれに該当)、ヒューリスティックな分割では負荷不均衡が生じ準線形スピードアップに留まる。 PipeDream(非同期)と比較すると、GPipe は重みストールがなく最適化の安定性が高いが、複数バージョンの重みを保持しないため巨大モデルにも適する。 ## 強み / 弱点・課題 **強み** - タスク・アーキテクチャ非依存: 層の系列として書けるモデルならすべてに適用可能 - 同期的勾配更新によりハイパーパラメータの感度が分割数に依存しない - 通信量が少なくハイエンドインターコネクト不要(PCI-E 環境でも有効) - 再マテリアライゼーションとパイプライン化の組み合わせで記憶・効率の両立 - 2019 年時点で 6B パラメータ Transformer の訓練を実証した先駆的スケール **弱点・課題** - 1 層が加速器メモリを超えるケースには対応不可 - バッチ正規化など統計をマイクロバッチをまたいで計算する必要がある層への対処が複雑 - 計算量の不均衡なモデル(AmoebaNet 等)では準線形スピードアップに留まる - 後継手法(1F1B スケジューリング・インターリーブドスケジュール等)と比較するとバブルオーバーヘッドは最適ではない - メモリ削減の代償として再計算コストが生じる(逆伝播で順伝播を再実行)