2025__ASPLOS__Vela - A Virtualized LLM Training System with GPU Direct RoCE

## Memo ## Memo with LLM ### 論文情報 - **論文のタイトル**: Vela: A Virtualized LLM Training System with GPU Direct RoCE - **著者と所属**: Apoorve Mohan (IBM Research), Robert Walkup (IBM Research), Bengi Karacali (IBM Research), Ming-Hung Chen (IBM Research), Abdullah Kayi (IBM Research), Liran Schour (IBM Research), Shweta Salaria (IBM Research), Sophia Wen (IBM Research), I-hsin Chung (IBM Research), Abdul Alim (IBM Research), Constantinos Evangelinos (IBM Research), Lixiang Luo (IBM Research), Marc Dombrowa (IBM Research), Laurent Schares (IBM Research), Ali Sydney (IBM Research), Pavlos Maniotis (IBM Research), Sandhya Koteshwara (IBM Research), Brent Tang (IBM Research), Joel Belog (IBM Research), Rei Odaira (IBM Research), Vasily Tarasov (IBM Research), Eran Gampel (IBM Research), Drew Thorstensen (IBM Research), Talia Gershon (IBM Research), Seetharami Seelam (IBM Research) 他5名 - **カンファレンス/ジャーナル名**: ASPLOS 2025 (30th ACM International Conference on Architectural Support for Programming Languages and Operating Systems) - **発表年**: 2025年 ### 論文概要本論文は、大規模言語モデル（[[LLM]]）の訓練に特化したクラウドネイティブシステム「Vela」について報告している。VelaはLinux [[KVM]]ベースの仮想化とRDMA over Converged Ethernet（[[RoCE]]）ネットワークを使用して構築されており、約1,500 GPU規模での高性能な分散訓練を実現している。 ### 詳細解説 #### 問題設定 **問題の入力と出力**: 大規模言語モデルの分散訓練における効率的なGPU間通信と仮想化オーバーヘッドの最小化が主要な課題。入力として数百から数千のGPUクラスターがあり、出力として高スループットでの模型訓練を実現する必要がある。 **必要なデータ**: NVIDIA A100 GPUを使用したIBM Cloudデータセンターでの約2.5年間の運用データ、ネットワーク性能データ、仮想化性能データ、および500億パラメータのdecoderモデルでの実験データ。 #### 提案手法 **仮想化最適化**: Linux KVMベースの仮想化を用いつつ、PCI-E device passthroughと[[SR-IOV]]を活用してベアメタルに近い性能を実現。具体的には、VM設定でhuge pages、NUMA domains、Device-NUMA mapping、ATS（Address Translation Services）を有効化し、仮想化オーバーヘッドを5%以下に抑制。 **高性能ネットワーク**: RDMA over Converged Ethernet (RoCE)とGPU Direct RDMA (GDR)を実装。これにより、GPUメモリ間の直接通信が可能となり、従来のTCPベース通信と比較して10倍の帯域幅向上を実現。 **ストレージシステム**: IBM Spectrum Scale (GPFS) を使用した分散ファイルシステムを構築。40GB/sの読み込み性能と15GB/sの書き込み性能を達成し、従来のNFSと比較して40倍の読み込み性能向上。 #### 新規性 **クラウドネイティブなAI超計算機**: 従来のHPCシステムがInfiniBandなどの専用ネットワークを使用するのに対し、Velaは標準的なEthernetネットワーク上でRoCEを実装することで、クラウド環境での高性能AI訓練を実現。 **仮想化とパフォーマンスの両立**: 従来、仮想化は性能劣化の原因とされていたが、詳細な最適化により5%以下のオーバーヘッドを実現し、柔軟性と性能を両立。 **運用上の革新**: 自動障害検出システム（Autopilot）、マルチテナント対応、動的リソース配分など、production環境での運用に必要な機能を統合。 #### 実験設定 **使用したデータセット**: 500億パラメータのdecoderモデルを用いた実験。NVIDIA A100 80GB GPUを最大1,500台使用。 **評価指標の定義**: - スループット効率: 理想値に対する達成率（～80%を達成） - GPU FLOPS: 単一VMに対するHigh-Performance Linpack benchmark比較（～70%を達成） - ネットワーク性能: NCCL all_reduce通信における帯域幅とレイテンシ - 仮想化オーバーヘッド: ベアメタルとVMでの性能比較 #### 実験結果 **主要な性能指標**: - 1,500 GPU規模で理想スループットの約80%を達成 - モデル並列処理を使用した500億パラメータモデル訓練で高い効率性 - GDRプロトコル使用時、8MBメッセージで2GB/s、500MB以上のメッセージで20-30GB/sの帯域幅を実現（TCPは6GB/sで飽和） - NCCL all_reduce性能でGPU数が32から1,752まで良好なスケーラビリティを実証 **ベンチマーク比較**: Megatron frameworkとの比較で140 TFLOPs/GPU、Bloomberg GPTとの比較で160 TFLOPs/GPUを達成し、既存システムを上回る性能を実証。 **運用実績**: 2年間の運用で月平均1%未満のホスト障害率、自動復旧システムにより障害時の対応時間を半減。 ## Abstract Velaは、既製のハードウェア、Linux KVMベース仮想化、および仮想化されたRDMA over Converged Ethernet (RoCE)ネットワークを使用して構築された、LLM訓練ワークロード用のクラウドネイティブシステムです。Vela仮想マシン(VM)は、GPUとSR-IOVベースのネットワークインターフェース間のピアツーピアDMAをサポートします。本論文では、IBM Cloud データセンターの1つでのNVIDIA [[A100]] GPU ベースの展開からの詳細を含む、Velaの主要なアーキテクチャ的側面を共有します。論文全体を通じて、システムの設計、構築、および約2.5年間の運用から得られた洞察と経験を共有し、容易に入手可能なソフトウェアおよびハードウェア技術の能力と、将来のAIシステムの改善機会を強調し、それによってAIインフラストラクチャをより広いコミュニティにアクセス可能にします。約1,500 GPU規模でのシステム性能評価において、モデル並列処理を使用して500億パラメータのdecoderモデルを訓練する際に理想スループットの約80%を達成し、High-Performance Linpackベンチマークと比較して単一VMあたりGPU FLOPSの約70%を達成しました。