SCAHPCAsia2026 - Architecting the future of AI Infrastructure

https://www.sca-hpcasia2026.jp/program.html#day-0127 Tue, January 27, 2026 　11:30 - 12:30 　Room 702 Contributors: Eric Van Hensbergen (Arm) > 概要：AIワークロードによる計算資源需要の爆発的な増加に伴い、インフラストラクチャに対する要求もますます高度化しています。本パネルでは、業界の第一人者が集結し、AIアクセラレータ、計算ラック、AIクラスターがこれらの要求にどのように対応して進化しているかを議論します。本パネルセッションでは、登壇者らが将来の計算技術、アクセラレータ、ネットワーク技術、光技術、冷却技術の革新が、大規模環境においていかに計算能力、効率性、性能のさらなる向上を可能にするかについて重点的に解説します。 Speakers: - Eric Van Hensbergen (Arm) - Mohamed Wahib (RIKEN) - Jay Boisseau (Google HPC) - Jason Haga (AIST) - Dan Ernst (Nvidia) - Jennifer Glore (Rebellions) - ![[IMG_6017.jpeg]] ## Jay Boisseau (Google HPC): AI is HPC * AIは「ワークロード」であり、HPCはその処理のための「アプローチ」である * かつて1,000〜10,000ノードのスケーリングに苦心していたが、現在は「ポッド単位」や「データセンター規模」での設計が標準化されている * GoogleのTPUポッドやNVIDIAのSuperpodなど、データセンター全体を一つのシステムとして設計するフェーズに移行した * 光ネットワーク（Optical Networking）や液冷の採用が、限定的な研究から一般的なデータセンター設計へと拡大している * エネルギー問題において、AI需要が米国の原子力回帰を牽引している現状を歓迎している * 将来的には、データセンター自体に発電機能を備える形態が期待される ## Dan Ernst (NVIDIA): System View of Memory * AI工場やスパコンは電力制限下にあり、電力効率とパフォーマンスは実質的に同義である * メモリの消費電力シェアが急増している * Hopper GPUではHBMの消費電力はTDPの1/3未満だったが、Blackwellでは60%以上に達する可能性がある * DDR→LPDDR→GDDR→HBMに続く、次の段階的な効率向上（ステップファンクション）が必要である * 推論パフォーマンスには万能な構成はなく、Latency（トークン/秒/ユーザー）とThroughput（システム全体）のトレードオフを調整する必要がある * メモリ容量増大の利益には収穫逓減の法則が働き、ROIの測定が重要になる * メモリの分散化（Disaggregation）は柔軟性を生むが、通信コストと複雑性を増大させるため、密結合な構成が効率面で優位である ## Jennifer Glore (Rebelions.ai): Inference First Infrastructure * ワークロードの焦点が学習（Training）から推論（Inference）へとシフトしている * 学習は計算集約的だが、推論はよりメモリ集約的であり、ネットワーク要件も異なる * 月間数億トークン以上を処理する規模でのワット当たり性能とトケノミクス（推論経済性）の追求 * エッジ推論や連合学習（Federated Learning）など、分散環境への対応が進んでいる * 異種混在ハードウェアを抽象化するためのAPI統一とプログラミングモデルの重要性が拡大している ## Jason Haga (AIST): NAPA Project ![[52955223-59B3-45F9-A270-036CC3264F41_1_105_c.jpeg]]![[C1FD1B77-8B46-47D4-8F4C-9D8A5AF6CF8B_1_105_c.jpeg]] ![[79E79726-6606-4082-AD7E-CBB2517831DF_1_105_c.jpeg]] * 次世代AI基盤進化プロジェクト（NAPA）を立ち上げ * NVIDIAやAMD以外の多様なAIアクセラレータチップを中立的に評価することが目的 * NEDO支援による5年間、1.8億ドル以上のプロジェクトであり、産総研、理研、富士通等が参画している * 特定のモデルやデータタイプに対し、最適なハードウェアを提案する高精度性能予測技術を開発する * 日本の産業界における新しいAIアクセラレータの採用ハードル（情報不足や安定性）を解消することを目指す ## Mohamed Wahib (RIKEN): Convergence vs Divergence ![[C80CD12D-8A22-42D2-BE37-F92E8B7BF167_1_105_c.jpeg]] ![[D5CC6059-D727-4221-83AD-F704270E24DE_1_105_c.jpeg]] ![[8DD5D8E2-2B48-44DF-8F60-44305C8CB305_1_105_c.jpeg]] ![[6E656DA6-36E0-4B36-BD22-9E0ECF15A769_1_105_c.jpeg]] ![[1EF84395-C179-425A-A6CD-344B1A2759E6_1_105_c.jpeg]] * 投資と市場仕様がAIに集中しており、HPCはAI市場の製品を調達（Shop）して適応するしかない * AIの低精度指向とHPCの高精度要件をどう両立させるかが課題である * スパコンの定義を「科学機器」から、外部と繋がる「サービスプラットフォーム」へと更新する必要がある * 科学者がジョブを投入して待つだけでなく、シームレスな統合（エージェントスタイル）や豊富なデータパイプラインエコシステムが必要である * LLMのサービングやAI支援によるコーディングなど、新しいユースケースを前提としたインフラ設計が求められる [Image comparing HBM integration with traditional DDR memory architecture] ## Discussion & Q/A * 信頼性：大規模化により故障間隔（MTTI）が短くなるため、ソフトウェア側での自動復旧（レジリエント・ソフトウェア）が標準となる * セキュリティ：運用フェーズでは暗号化推論や、スタック全体での保護（Security by Design）が不可欠になる * 次世代モデル：LLM（大規模言語モデル）は通過点に過ぎない可能性がある * 世界モデルやアクティブ推論など、より演算効率の高い手法が登場し、ハードウェア要件を劇的に変える可能性がある --- このセッションで言及された内容について、例えば特定のアクセラレータ（Blackwell等）の電力プロファイルの詳細や、NAPAプロジェクトの評価手法など、さらに掘り下げたい項目があればお知らせください。 ![[IMG_6018.jpeg]] ![[8BB28975-109C-41D6-8F09-863BCDC78775_1_105_c.jpeg]] ![[86F88354-B15B-47E2-A0A9-4DE7736FD3E4_1_105_c.jpeg]] ![[BD3A3FD0-7239-433A-A7CC-EBCC7F4761F0_1_105_c.jpeg]]