## 講演タイトル - LLM向けマネージドHPCクラスタ「さくらONE」のオブザーバビリティ - AIインフラ「さくらONE」のオブザーバビリティ - LLMファクトリー「さくらONE」のオブザーバビリティ - AIインフラのベンチマークのための分散学習性能評価 - AIスパコンのベンチマークのための分散学習性能評価 - AIスパコンの分散学習性能評価 - AIスパコンにおけるLLM分散学習のパフォーマンス評価 - AIスパコンにおけるLLM分散学習の性能評価とテレメトリー - AIスパコンの分散学習ワークロードに基づく性能評価とチューニング - LLM分散学習ベンチマークに基づくAIスパコンのパフォーマンス評価 - LLM分散学習ベンチマークに基づくAIスパコンの性能評価 - LLM学習ベンチマークによるAIスパコン「さくらONE」の性能評価 - AI/ML基盤 - AIインフラ/AI学習インフラ - LLMファクトリー - 分散深層学習基盤 - AIスパコン - 計算効率 - 性能 ## 講演概要(200-300文字程度) LLMなどの大規模なAI基盤モデルの学習は、GPU計算ノード、高速ネットワークやスケーラブルなストレージを統合した高性能計算インフラを必要とします。さくらインターネットでは、この要件に最適化した大規模AI学習向けマネージドHPCクラスタ「さくらONE」を提供しています。 本講演では、MLPerf Trainingベンチマークスイートを用いたGPT-3の分散学習によるAIスパコンの評価事例を紹介します。 特に、分散学習ワークロードの特性、さくらONEのシステム構成と性能評価結果、および、処理効率を計るためのテレメトリー分析の観点を取り上げます。 3.氏名/所属組織名 坪内 佑樹 / さくらインターネット株式会社 4.顔写真 https://drive.google.com/open?id=1KF0ca_UzF_yGpki_qPmxyO3S97srSQ3q&usp=drive_fs --- ## アウトライン ### TODO - [ ] Slurmdbで、総成功ジョブ数、最長タスクの特定、成功タスクの中での分布 - [ ] FLOPSの割合(演算効率を計算する) ### 1. はじめに (2分) - 大規模なAIモデル学習が、大規模な計算機を要求する - さくらインターネットでは、高火力PHYに加えて、AIスパコン「さくらONE」を開発。 - AI以外にも科学計算用途なども想定 - TOP-500 世界49位 国内 - LLM分散学習は、特殊なワークロードとして知られている。 - さくらONEにおいて、LLM学習ワークロードで、どの程度の性能がでるのか?を検証したい。 - AIスパコンのベンチマーク(TOP-500とは無関係)として、MLPerfを採用した。 ### 2. 分散学習のワークロードとインフラ (5分) - [[ニューラルネットワーク]]の学習 - 反復構造をもつ - [[順伝播]] → 損失算出 -> [[誤差逆伝播法]] → 勾配の集約 → 最適化器によるパラメータ更新 - 並列計算可能構造をもつ - [[Transformer]]自体がそれ以前のRNNに比べて並列に計算しやすい構造 - 任意の入力または出力位置間の情報を関連付けるために必要な演算の数は、距離が離れるほど増加する - 3次元並列 - データ並列、モデル並列(テンソル並列、パイプライン並列) - 各並列アルゴリズムの合成 - [[2019__arXiv__Megatron-LM - Training Multi-Billion Parameter Language Models Using Model Parallelism]] - [[2021__SC21__Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM]] - 集合通信 - 同期のタイムライン - [[2024__Micro__AI and Memory Wall]] - FLOP/S、DRAM BW、Interconnect NW - 基本的にメモリネック - 物理構成 - [[PFNにおけるアクセラレータ間通信の実際 - Preferred Networks Research & Development]]のような図を書く - 計算ノード - GPU x n (n<=8) - V100, A100, H100/H200, B200 - メモリサイズが大きい - 小さなbit幅 - 内部バス通信:PCIe / NVLink/NVSwitch/ GPU / NIC - スイッチ - Fat tree - スター型 - ストレージ - ソフトウェアスタック - オーケストレーション層:[[Slurm]] / [[Kubernetes|k8s]] / [[2018__OSDI__Ray A Distributed Framework for Emerging AI Applications|Ray]] - 分散学習フレームワーク: Magatron-LM / DeepSpeed / NeMo - 学習フレームワーク:PyTorch / TensorFlow / JAX - 計算ライブラリ:cuDNN, Transformer Engine - GPUプログラミング環境:CUDA - 集合通信ライブラリ:NCCL - GPUデバイスドライバー - メモリバウンド問題 - 活性化再計算 ### 3. さくらONE (3分) - LLM学習に最適化 - Rail Optimized - DDN - システム構成 - - top 500の結果 - Ethernetベースでは世界2位 - インターコネクトネットワークにはオープンな技術を用いている ### 4. MLPerfベンチマークの結果 (8分) - ベンチマークで明らかにしたいこと - [[分散学習スループットの相場]] - 与条件 - インフラのベンチマークであるため、学習の収束に関わるパラメータは固定 - OptimizerはAdamに固定 - 学習率を固定する - インフラの性能をみるには - GPT-3 175BをGPUメモリに乗せる戦略 - BF16(FP32 勾配)時のモデル状態メモリは 1 パラメータあたり 18B - Tensor Core利用率:45%前後を推移 - 4台では計算上GPUメモリに乗らない - NVIDIAと比べると負けている - さくらONEがH100ベースのNVIDIAのEOS SuperPod([Top 500 2025 16位](https://top500.org/system/180239/))には1GPUあたりの処理効率の観点で1.28倍差がついている。 - LLama2ファインチューニングの結果 - NVIDIAと同等程度 ### 5. まとめ (1分) - ## References - [[2025__HPCA__Revisiting Reliability in Large-Scale Machine Learning Research Clusters|Kokolis+, HPCA2025]]の図が参考になる。 - [[2025__arXiv__Characterizing GPU Resilience and Impact on AI-HPC Systems]] - H100 > A100 信頼性 - [[2025__WANT@ICML__Memory and Bandwidth are All You Need for Fully Sharded Data Parallel]] - メモリ帯域とネットワーク待機がFSDPのすべて - [[2024__Micro__AI and Memory Wall]] -