## Memo ## Memo with LLM ### 論文情報 - **論文のタイトル**: ABCI 3.0: Evolution of the leading AI infrastructure in Japan - **著者と所属**: Ryousei Takano, Shinichiro Takizawa, Yusuke Tanimura, Hidemoto Nakada, Hirotaka Ogawa (AIST: National Institute of Advanced Industrial Science and Technology) - **カンファレンス/ジャーナル名**: arXiv - **発表年**: 2024 ### 論文概要 産業技術総合研究所(AIST)が開発・運用する大規模オープンAIインフラ「ABCI」の最新バージョンである「ABCI 3.0」のシステム構成と概要を紹介する論文です。ABCI 3.0は6,128基のNVIDIA H200 GPUを搭載し、前世代(ABCI 2.0)と比較して7〜13倍の計算性能と2倍以上のストレージ性能を実現しています。特に生成AIの研究開発やSovereign AI(主権AI)の構築に向けた国家的な需要に応えることを目的としています。 ### 詳細解説 #### 問題設定 生成AIの急速な普及に伴い、日本の産業界、学術界、政府において計算リソースへの需要が急増しており、既存のABCIリソースだけではタイムリーに対応できない状況が生じていました。また、現在の生成AIは自然言語処理が中心ですが、将来的には実世界の画像、音声、センサーデータなどを活用したマルチモーダル基盤モデルの開発が重要になると予測されます。このような最先端のAI技術開発、特に大規模な基盤モデルの構築と評価を行うためには、計算インフラの大幅な性能向上が不可欠でした。 #### 提案手法 AISTは、ABCIシリーズの最新システムとして「ABCI 3.0」を設計・構築しました。 - **ハードウェア構成**: 766台の計算ノードで構成され、各ノードにはIntel Xeon Platinum 8558プロセッサ(2基)とNVIDIA H200 SXM GPU(8基)が搭載されています。システム全体で合計6,128基のH200 GPUを有します。 - **ストレージとネットワーク**: 合計75PBの容量を持つオールフラッシュストレージシステムを採用し、高速な読み書きを実現しています。ノード間およびストレージとの接続にはInfiniBand NDR/HDRを採用し、インターネット接続にはSINET6(400Gbps)を使用しています。 - **ソフトウェアスタック**: 既存のABCIユーザーの移行を容易にするため、OS(Rocky Linux)、ジョブスケジューラ(Altair PBS Professional)、コンテナ(Singularity CE)などの構成を継承しつつ、新たにWebブラウザからアクセス可能なOpen OnDemandをサポートしました。 - **ファシリティ**: システムの高性能化に伴い、データセンターの電力容量を6MW、冷却容量を5.2MWに増強しました。 #### 新規性 ABCI 3.0は、日本のオープンAIインフラとして最大規模かつ最高性能を誇ります。 - **圧倒的な性能向上**: ABCI 2.0と比較して、半精度演算性能で約7〜13倍(ピーク性能6.22 EFLOPS)、単精度演算性能で3.0 EFLOPSを達成しました。 - **生成AIへの特化**: 最新のNVIDIA H200 GPUを全面採用することで、メモリ帯域幅と容量を拡大し、大規模言語モデル(LLM)やマルチモーダルモデルの学習・推論に最適な環境を提供しています。 - **運用の進化**: 従来のSSHベースの利用に加え、WebUIによるアクセスを提供することで、より幅広いユーザー層(AIスタートアップなど)の利用を促進しています。 #### 実験設定 本論文はシステムアーキテクチャと仕様を紹介するTechnical Reportの性質を持つため、比較実験の記述はありません。代わりに、システムのハードウェア仕様(GPU数、メモリ、ストレージ容量など)と理論ピーク性能値が提示されています。 #### 実験結果 - **計算性能**: 半精度で6.22エクサフロップス、単精度で3.0エクサフロップスの理論ピーク性能を達成しました。 - **リソース規模**: 計算ノード766台、GPU総数6,128基、メインメモリ総量約1.5PB(各ノード2TiB)を提供します。 - **ストレージ性能**: ストレージ容量および理論読み書き性能において、ABCI 2.0の2倍以上のスペックを実現しました。 ## Abstract ABCI 3.0は、産総研(AIST)が2018年8月から運用している大規模オープンAIインフラ「ABCI」の最新バージョンであり、2025年1月に完全稼働する予定です。ABCI 3.0は、6,128基のNVIDIA H200 GPUを搭載した計算サーバーとオールフラッシュストレージシステムで構成されています。そのピーク性能は、半精度で6.22エクサフロップス、単精度で3.0エクサフロップスであり、これは前世代のシステムであるABCI 2.0の7〜13倍の速度です。また、ストレージ容量と理論上の読み書き性能の両方が2倍以上に向上しています。ABCI 3.0は、特に生成AIに焦点を当てた最先端のAI技術の研究開発、評価、および人材育成を加速させることが期待されています。