## Memo
## Memo with LLM
### 論文情報
- **論文のタイトル**: ABCI 3.0: Evolution of the leading AI infrastructure in Japan
- **著者と所属**: Ryousei Takano, Shinichiro Takizawa, Yusuke Tanimura, Hidemoto Nakada, Hirotaka Ogawa (AIST: National Institute of Advanced Industrial Science and Technology)
- **カンファレンス/ジャーナル名**: arXiv
- **発表年**: 2024
### 論文概要
産業技術総合研究所(AIST)が開発・運用する大規模オープンAIインフラ「ABCI」の最新バージョンである「ABCI 3.0」のシステム構成と概要を紹介する論文です。ABCI 3.0は6,128基のNVIDIA H200 GPUを搭載し、前世代(ABCI 2.0)と比較して7〜13倍の計算性能と2倍以上のストレージ性能を実現しています。特に生成AIの研究開発やSovereign AI(主権AI)の構築に向けた国家的な需要に応えることを目的としています。
### 詳細解説
#### 問題設定
生成AIの急速な普及に伴い、日本の産業界、学術界、政府において計算リソースへの需要が急増しており、既存のABCIリソースだけではタイムリーに対応できない状況が生じていました。また、現在の生成AIは自然言語処理が中心ですが、将来的には実世界の画像、音声、センサーデータなどを活用したマルチモーダル基盤モデルの開発が重要になると予測されます。このような最先端のAI技術開発、特に大規模な基盤モデルの構築と評価を行うためには、計算インフラの大幅な性能向上が不可欠でした。
#### 提案手法
AISTは、ABCIシリーズの最新システムとして「ABCI 3.0」を設計・構築しました。
- **ハードウェア構成**: 766台の計算ノードで構成され、各ノードにはIntel Xeon Platinum 8558プロセッサ(2基)とNVIDIA H200 SXM GPU(8基)が搭載されています。システム全体で合計6,128基のH200 GPUを有します。
- **ストレージとネットワーク**: 合計75PBの容量を持つオールフラッシュストレージシステムを採用し、高速な読み書きを実現しています。ノード間およびストレージとの接続にはInfiniBand NDR/HDRを採用し、インターネット接続にはSINET6(400Gbps)を使用しています。
- **ソフトウェアスタック**: 既存のABCIユーザーの移行を容易にするため、OS(Rocky Linux)、ジョブスケジューラ(Altair PBS Professional)、コンテナ(Singularity CE)などの構成を継承しつつ、新たにWebブラウザからアクセス可能なOpen OnDemandをサポートしました。
- **ファシリティ**: システムの高性能化に伴い、データセンターの電力容量を6MW、冷却容量を5.2MWに増強しました。
#### 新規性
ABCI 3.0は、日本のオープンAIインフラとして最大規模かつ最高性能を誇ります。
- **圧倒的な性能向上**: ABCI 2.0と比較して、半精度演算性能で約7〜13倍(ピーク性能6.22 EFLOPS)、単精度演算性能で3.0 EFLOPSを達成しました。
- **生成AIへの特化**: 最新のNVIDIA H200 GPUを全面採用することで、メモリ帯域幅と容量を拡大し、大規模言語モデル(LLM)やマルチモーダルモデルの学習・推論に最適な環境を提供しています。
- **運用の進化**: 従来のSSHベースの利用に加え、WebUIによるアクセスを提供することで、より幅広いユーザー層(AIスタートアップなど)の利用を促進しています。
#### 実験設定
本論文はシステムアーキテクチャと仕様を紹介するTechnical Reportの性質を持つため、比較実験の記述はありません。代わりに、システムのハードウェア仕様(GPU数、メモリ、ストレージ容量など)と理論ピーク性能値が提示されています。
#### 実験結果
- **計算性能**: 半精度で6.22エクサフロップス、単精度で3.0エクサフロップスの理論ピーク性能を達成しました。
- **リソース規模**: 計算ノード766台、GPU総数6,128基、メインメモリ総量約1.5PB(各ノード2TiB)を提供します。
- **ストレージ性能**: ストレージ容量および理論読み書き性能において、ABCI 2.0の2倍以上のスペックを実現しました。
## Abstract
ABCI 3.0は、産総研(AIST)が2018年8月から運用している大規模オープンAIインフラ「ABCI」の最新バージョンであり、2025年1月に完全稼働する予定です。ABCI 3.0は、6,128基のNVIDIA H200 GPUを搭載した計算サーバーとオールフラッシュストレージシステムで構成されています。そのピーク性能は、半精度で6.22エクサフロップス、単精度で3.0エクサフロップスであり、これは前世代のシステムであるABCI 2.0の7〜13倍の速度です。また、ストレージ容量と理論上の読み書き性能の両方が2倍以上に向上しています。ABCI 3.0は、特に生成AIに焦点を当てた最先端のAI技術の研究開発、評価、および人材育成を加速させることが期待されています。