2024__arXiv__ABCI 3.0 - Evolution of the leading AI infrastructure in Japan

## Memo ## Memo with LLM ### 論文情報 - **論文のタイトル**: ABCI 3.0: Evolution of the leading AI infrastructure in Japan - **著者と所属**: Ryousei Takano, Shinichiro Takizawa, Yusuke Tanimura, Hidemoto Nakada, Hirotaka Ogawa (AIST: National Institute of Advanced Industrial Science and Technology) - **カンファレンス/ジャーナル名**: arXiv - **発表年**: 2024 ### 論文概要産業技術総合研究所（AIST）が開発・運用する大規模オープンAIインフラ「ABCI」の最新バージョンである「ABCI 3.0」のシステム構成と概要を紹介する論文です。ABCI 3.0は6,128基のNVIDIA H200 GPUを搭載し、前世代（ABCI 2.0）と比較して7〜13倍の計算性能と2倍以上のストレージ性能を実現しています。特に生成AIの研究開発やSovereign AI（主権AI）の構築に向けた国家的な需要に応えることを目的としています。 ### 詳細解説 #### 問題設定生成AIの急速な普及に伴い、日本の産業界、学術界、政府において計算リソースへの需要が急増しており、既存のABCIリソースだけではタイムリーに対応できない状況が生じていました。また、現在の生成AIは自然言語処理が中心ですが、将来的には実世界の画像、音声、センサーデータなどを活用したマルチモーダル基盤モデルの開発が重要になると予測されます。このような最先端のAI技術開発、特に大規模な基盤モデルの構築と評価を行うためには、計算インフラの大幅な性能向上が不可欠でした。 #### 提案手法 AISTは、ABCIシリーズの最新システムとして「ABCI 3.0」を設計・構築しました。 - **ハードウェア構成**: 766台の計算ノードで構成され、各ノードにはIntel Xeon Platinum 8558プロセッサ（2基）とNVIDIA H200 SXM GPU（8基）が搭載されています。システム全体で合計6,128基のH200 GPUを有します。 - **ストレージとネットワーク**: 合計75PBの容量を持つオールフラッシュストレージシステムを採用し、高速な読み書きを実現しています。ノード間およびストレージとの接続にはInfiniBand NDR/HDRを採用し、インターネット接続にはSINET6（400Gbps）を使用しています。 - **ソフトウェアスタック**: 既存のABCIユーザーの移行を容易にするため、OS（Rocky Linux）、ジョブスケジューラ（Altair PBS Professional）、コンテナ（Singularity CE）などの構成を継承しつつ、新たにWebブラウザからアクセス可能なOpen OnDemandをサポートしました。 - **ファシリティ**: システムの高性能化に伴い、データセンターの電力容量を6MW、冷却容量を5.2MWに増強しました。 #### 新規性 ABCI 3.0は、日本のオープンAIインフラとして最大規模かつ最高性能を誇ります。 - **圧倒的な性能向上**: ABCI 2.0と比較して、半精度演算性能で約7〜13倍（ピーク性能6.22 EFLOPS）、単精度演算性能で3.0 EFLOPSを達成しました。 - **生成AIへの特化**: 最新のNVIDIA H200 GPUを全面採用することで、メモリ帯域幅と容量を拡大し、大規模言語モデル（LLM）やマルチモーダルモデルの学習・推論に最適な環境を提供しています。 - **運用の進化**: 従来のSSHベースの利用に加え、WebUIによるアクセスを提供することで、より幅広いユーザー層（AIスタートアップなど）の利用を促進しています。 #### 実験設定本論文はシステムアーキテクチャと仕様を紹介するTechnical Reportの性質を持つため、比較実験の記述はありません。代わりに、システムのハードウェア仕様（GPU数、メモリ、ストレージ容量など）と理論ピーク性能値が提示されています。 #### 実験結果 - **計算性能**: 半精度で6.22エクサフロップス、単精度で3.0エクサフロップスの理論ピーク性能を達成しました。 - **リソース規模**: 計算ノード766台、GPU総数6,128基、メインメモリ総量約1.5PB（各ノード2TiB）を提供します。 - **ストレージ性能**: ストレージ容量および理論読み書き性能において、ABCI 2.0の2倍以上のスペックを実現しました。 ## Abstract ABCI 3.0は、産総研（AIST）が2018年8月から運用している大規模オープンAIインフラ「ABCI」の最新バージョンであり、2025年1月に完全稼働する予定です。ABCI 3.0は、6,128基のNVIDIA H200 GPUを搭載した計算サーバーとオールフラッシュストレージシステムで構成されています。そのピーク性能は、半精度で6.22エクサフロップス、単精度で3.0エクサフロップスであり、これは前世代のシステムであるABCI 2.0の7〜13倍の速度です。また、ストレージ容量と理論上の読み書き性能の両方が2倍以上に向上しています。ABCI 3.0は、特に生成AIに焦点を当てた最先端のAI技術の研究開発、評価、および人材育成を加速させることが期待されています。