SCA-HPCAsia_2026 - yuuk1's Digital Garden

# SCA/HPCAsia 2026 [[SCA-HPCAsia2026 AI事前調査レポート]] ## Overview Joint International Conference on SupercomputingAsia 2026 (SCA2026) and HPC Asia 2026. - **Dates:** January 26-29, 2026 - **Location:** Osaka International Convention Center, Japan - **Website:** https://sca-hpcasia2026.jp/ ** ## Sessions & Talks ### Day 1 (Jan 26) #### A Tutorial on High-Performance and Smart Networking Technologies for HPC and AI (9:30 - 12:30 　Room 1001) [NOWLAB :: High-Performance and Smart Networking Technologies for HPC and AI](https://nowlab.cse.ohio-state.edu/tutorials/SCA-HPCAsia-2026_hpn/) > 高性能ネットワーク技術は、GPGPUやアクセラレータ、データセンター処理ユニット（DPU）を活用したHPC（ハイパフォーマンスコンピューティング）およびAI向けの次世代ハイエンドコンピューティングシステムの構築において、大きな注目を集めています。本チュートリアルでは、これらの最新技術の概要、アーキテクチャ的特徴、現在の市場動向、そしてHECシステム設計への適合性について解説します。まず、IB（InfiniBand）、HSE、[[RoCE]]、Omni-Pathといったインターコネクト技術の概要を簡潔に説明します。その後、これらのインターコネクト技術のアーキテクチャ的特徴について詳細に解説します。続いて、新たに登場している[[NVLink]]、NVLink2、NVSwitch、EFA、Slingshot、Tofu-Dといったアーキテクチャについて概説します。さらに、パフォーマンスとスケーラビリティを実現する汎用高性能ネットワークの先進的機能について紹介します。その後、DPU/IPU（Smart NIC）などの高機能オフロード対応ネットワークアダプタの概要、その機能と特徴について説明します。続いて、OpenFabrics Verbs、LibFabrics、UCXといった高性能ネットワーク向けソフトウェアスタックの概要を説明し、これらのスタックの性能比較を行います。最後に、これらのインターコネクト向けMPIライブラリの設計における課題、その解決策、および実際の性能数値について紹介します。 [[2026__SCA-HPCAsia__High-Performance_and_Smart_Networking_Technologies_for_HPC_and_AI]] #### A Tutorial on Principles and Practice of Scalable and Distributed Deep Neural Networks Training and Inference (1:30 PM - 4:30 PM Room 1001) [NOWLAB :: Principles and Practice of Scalable and Distributed Deep Neural Networks Training and Inference](https://nowlab.cse.ohio-state.edu/tutorials/hidl_SCAsia26/) > 深層学習（Deep Learning: DL）分野における近年の著しい進歩は、多くの刺激的な課題と可能性を生み出しています。TensorFlow、[[PyTorch]]、Horovod、DeepSpeedといった最新のDLフレームワークは、GPT、BERT、ViT、ResNetなど多様なタイプの深層ニューラルネットワーク（Deep Neural Networks: DNN）に対して、高性能な学習・推論・展開を可能にしています。本チュートリアルでは、DL分野の最新動向と、最先端のハードウェアアーキテクチャと相互接続技術がこの分野のさらなる発展において果たす役割について概説します。さらに、様々なDNNアーキテクチャの概要、DLフレームワークの解説、そして特にモデル学習における並列化戦略に焦点を当てたDLの学習・推論プロセスについて詳細に説明します。大規模分散学習を効率的にサポートするため、高性能CPU/GPUアーキテクチャを最大限に活用する上での新たな課題と機会についても考察します。また、現代のHPCクラスタで利用可能な最先端のCPUおよびGPUアーキテクチャを用いた大規模DNN学習のために、MPIを活用した共同設計の取り組みについても紹介します。チュートリアル全体を通じて、参加者が最新のGPUクラスタ上で分散型DLの学習・推論を実際に体験できる実践的な演習を複数用意しています。 [[2016__SCA-HPCAsia__Principles and Practice of Scalable and Distributed DNN Training and Inference]] - 機械学習の基本的な説明。 - 教師あり学習、教師なし学習、強化学習などの分類 - 深層ニューラルネットワークとは？ - [CS231n Deep Learning for Computer Vision](https://cs231n.github.io/) - Training vs Inference - TensoorFlow playground - [A Neural Network Playground](https://playground.tensorflow.org)A - DL Frameworks - Deep LEarning with COTS HPC systems" ICML'13 - GPUsとMVAPICHに依存 - [PyTorch vs TensorFlow in 2023](https://www.assemblyai.com/blog/pytorch-vs-tensorflow-in-2023)A - [Setting the learning rate of your neural network.](https://www.jeremyjordan.me/nn-learning-rate/) - [Gradient descent.](https://www.jeremyjordan.me/gradient-descent/) - [Model Fit: Underfitting vs. Overfitting - Amazon Machine Learning](https://docs.aws.amazon.com/machine-learning/latest/dg/model-fit-underfitting-vs-overfitting.html) - Computer VisonとVisionTransformer - NLP と [[LLM]] - [Build Large Language Models from Scratch - Analytics Vidhya](https://www.analyticsvidhya.com/blog/2023/07/beginners-guide-to-build-large-language-models-from-scratch/) ``` # Lab 1 - Data Parallelism cd /opt/tutorials/sca-hidl-tutorial/lab1 ## PyTorch 1- Run Single-node PyTorch-Horovod Benchmark srun -N 1 --reservation=dltutorial run_pytorch_bench_single.sh 2- Run Multi-node PyTorch-Horovod Benchmark with MVAPICH-Plus srun -N 2 --reservation=dltutorial run_pytorch_bench_multi_mvp.sh ## TensorFlow 3- Run Single-node TensorFlow-Horovod Benchmark srun -N 1 --reservation=dltutorial run_tf_bench_single.sh 4- Run Multi-node TensorFlow-Horovod Benchmark with MVAPICH-Plus srun -N 2 --reservation=dltutorial run_tf_bench_multi_mvp.sh # Lab 2 - Out-of-core Training with DeepSpeed cd /opt/tutorials/sca-hidl-tutorial/lab2 1- Run Single-node BERT Training srun -N 1 --reservation=dltutorial train-bert-single.sh 2- Run Multi-node BERT Training with MVAPICH-Plus srun -N 2 --reservation=dltutorial train-bert-multi.sh ``` - 推論について - Flover: [\[2305.13484\] Flover: A Temporal Fusion Framework for Efficient Autoregressive Model Parallel Inference](https://arxiv.org/abs/2305.13484) - 低遅延と高スループットを両立するには？ ### Day 2 (Jan 27) #### Opening Session (09:00 - 09:30　5F Main Hall) - Guest of Honor Speech #### Keynote Torsten Hoefler / Ultra Ethernet for next-generation AI and HPC Workloads (09:30 - 10:15　5F Main Hall) - テキサスのDC。 - Core weave / Anthropic/AWS AI DC - Planned Meta Mega AI DC 2GW - xAI Colossus AI DC - 160k Blackwell GPU - 人類史上最大のDC建造 - How to build an AI supercomputer - HBM 7K 帯域幅 - TCP 30%削減 - Ultra Ethernetの概要紹介 #### Keynote Keisuke Fujii (10:15 - 11:00　5F Main Hall) - #### Invited Session Architecturing the future of AI Infrastructure (11:30-12:30) #### Lunch Session: Core Micro Systems Innovative AI HPC solutions that enable advanced, AI-intensive supercomputing (12:30-13:30) #### BoF: Slurm + Slinky for the AI and Supercomputer meeting ### Day 3 (Jan 28) #### AI as a Scientist > 完全に自律的、あるいは高度に自律的なAIシステムおよびロボットシステムを開発し、高度な科学的研究を実施できるようにすることは、最も重要な科学的成果の一つとなるでしょう（1）。ノーベル・チューリング・チャレンジは、ノーベル賞に値する画期的な科学的発見を継続的に行えるAI科学者の構築を目指す壮大な挑戦です（2）。科学的発見のためのWARPドライブは、当初「兆単位のデータ」「億単位の仮説」「百万回の実験」「千単位の発見」という概念を基盤として構築される予定です。知識の大規模抽出、仮説の大規模生成、ロボット工学による大規模実験、そしてそれらの結果の大規模検証と知識統合というサイクルを確立することが、最初の重要なステップとなります。このアプローチは、従来の科学研究のあり方を根本から転換するものです。重要な問いを投げかける代わりに、AI科学者はあらゆる問いを発することができ、重要な答えは発見されるのを待つだけの状態になります。AIの能力を実現するための膨大な計算能力と、高精度実験を可能にする高度なロボットシステムの組み合わせが、この取り組みの成功の鍵を握ります。 - TEDの資料から一部重複している - 研究者がAIを活用することが狩猟する。 - 科学者としての自律的に高度なAIシステムを実現できるか？ - Bio/ Inteliggence / Financial / Socio - Novel Turing Challenge - Challenge: 2050までにノーベル賞なみのAI科学者をつくれるか？ - Question: AI Scienticsは人間のそれと振る舞いが大きく異なるか？ - 完全情報問題 <-> 実物理世界問題 - 囲碁 <-> 科学的発見 - 生物学に取り組むスピード問題提議から証明まで20年 - Serendipity, By Accicent, Scientific Instituion - 認知バイアスの話 - Map is not the territory. - 4万個の遺伝子があるがごとんど論文がない。ロングテール分布。 - エコーチャンバー - 特定の遺伝子の有用性が発見されると、論文がどんどん増える。 - キャリアを心配するから。 - 80%のコストは、最後の5-20%向上に使われる。 - GT Sophy - eスポーツドライバに大差で勝つエージェント - 2000回のepoch -> 8000 epoch - Alpha Go 5->40 days - 遺伝子の研究カバレッジ - テール部分は低強度 - オープンエンドでは、大量のデータがあり、HPCが必要 - 伝統的な意味での高精度シミュレーションが必要 - フランコ主義的 - Search and optimization -> Accicent, search and optimization - Nobel Turing Challenge, [Nobel Turing Challenge](https://www.nobelturingchallenge.org/) - 従来の科学となにが違うか？ - 人間は多くの仮説を立てるのは得意ではない？ - 矛盾するもだけ除去する。 - 大規模な仮説空間をつくる - Adam-Eve: 最初のクローズドループシステム - Automation of Science - CMU Cloud Lab - MANTA Project - Microbiome - PHASE 1 - 人間は常に外れ値をみている。 - [Nobel Turing Challenge: creating the engine for scientific discovery \| npj Systems Biology and Applications](https://www.nature.com/articles/s41540-021-00189-3) - Engineeringこそ科学的発見の原動力。Engineeringは軽視されがち。 #### Quo Vadis Computer Architecture: Back to the future > 私の講演の基調テーマは、過去のコンピュータアーキテクチャにおける技術的進歩が今なお私たちの分野で関連性を持ち続け、今後の方向性を決定づけるという主張です。具体的には、現在のAIアクセラレータがシストリックアレイを基盤として設計されている点、現代の長ベクトルプロセッサがクレイスーパーコンピュータの影響を受けていること、そして過去のアーキテクチャ設計思想が、HPC分野における混合精度演算やエネルギー効率に優れたAIアクセラレータの層別最適化にどのように再利用されているかについて言及します。この講演では、UPCコンピュータアーキテクチャ学科（DAC）が科学界に対して行ってきた関連研究の成果の一部を紹介します。特に、スーパースカラープロセッサとベクトルプロセッサの分野における貢献に焦点を当てます。さらに、AIアプリケーションの効率的な実行を目的として現在の高性能プロセッサ（スーパーコンピュータやアクセラレータを含む）に実装されている、UPC DACの具体的な研究成果についても簡潔に解説します。講演の後半では、バルセロナ・スーパーコンピューティング・センター（BSC）における現在の研究テーマと、同センターで設計されているチップについて詳細に説明します。最後に、今後数年間にわたってAI向けスーパーコンピュータやアクセラレータの設計に活用される、RISC-Vベースの競争力あるチップを欧州がどのように開発していくべきか、私たちの将来ビジョンを提示して締めくくります。 - バルセロナスーパーコンピュータセンター BSC - MareNostrum 5 - 315.2 PFLOPS - NVL72 - EuroHPC - Jupyter Alice Recoques/Jupyter - 1980's - Interconnection networks - ISCA'85 Multipe buses organization - Systolic array processors - DBY ISCA'86 - Optimical design of systolic array processors ISCA'89 - Cray 1 in 1975 - Vector Architecture - microprocessorをたくさんつかえばベクトルいらない？ - 10個のスーパースカラープロセッサ - ベクトルアーキテクチャ - Out of order address generation and memory access - ISCA-92 - メモリ内の競合のないストライドの数を増やす - ILP in ベクトル命令 - Multi threaded vector architectures - Short vectors - DLP メモリ階層 - ベクトルレジスタファイル - キャッシュ階層 - スーパースカラの中のベクトルアーキテクチャ - メモリアクセスからベクトルモードへ移行 - Encryption - AES Encryption - - Database - DBMS高速化のサポート - スーパースカラプロセッサ - Applications -> ISA -> パイプライン - ISA が untacchable - 並列度向上 - kilo-instruction processors - 命令ウィンドウサイズを増加 -> 4896まで増加 - 資源の有効利用 - 物理レジスタ - エネルギー効率 - pproximate computing - Fiuzzy comoutation - Tolerant Computation - メディアによって精度をかえる - 1/3 energy - AI 43-47 bitぐらいが有用エリア BF16 - Rubin Emulated FP64 - Research history - Instruction Fetch - register file orgnization - Kilo instruction - SMT and VLIW - モダンプロセッサやGPUへの影響 - Rubin - 5x blackwell - FP8 training x3.5 - Back to the future - GPU ideaとして新しいものはない - 新しいのはワークロードとスケールと old truthes we once ignored - systolic dataflow - vector processing - SIMT - FP16/FP8/FP4 #### Research Session Ppaer Track 8: Accelerators in Practice 11:00 - 11:30 "Beyond Exascale: Dataflow Domain Translation on a Cerebras Cluster" **[Best Paper Finalist]** Tomas Oppelstrup, Nicholas Giamblanco, Delyan Z. Kalchev, Ilya Sharapov, Mark Taylor, Dirk Van Essendelft, Sivasankaran Rajamanickam, Michael James 11:30 - 12:00 "GPU Partitioning, Power, and Performance of the AMD MI300A" Amr Abouelmagd, David Boehme, Stephanie Brink, Jason Burmark, Michael McKinsey, Anthony Skjellum, Olga Pearce 12:00 - 12:30 "What Will the Grace Hopper-Powered Jupiter Supercomputer Bring for Sparse Linear Algebra?" Yu-Hsiang Tsai, Mathis Bode, Hartwig Anzt ### Day 4 (Jan 29) ## Keynote 1 The Future of HPC infra Era > エクサスケール・コンピューティングシステムの第一世代が稼働を開始し、これに伴い強力な新アプリケーション機能とシステムソフトウェアが利用可能となっています。同時に、より高度なシミュレーションの実施、機械学習手法の導入、新たな計測機器や普及が進むデータ収集デバイスによって生じる膨大なデータ分析問題への対応など、高性能コンピューティングへの需要は拡大を続けています。広義において、計算科学研究は物理・生命科学の領域を超え、社会科学や公共政策、さらには人文科学の分野にまでその領域を拡大しています。しかし、チップ技術がスケーリング限界に直面し、弱スケーリングによる性能向上効果が逓減する中、これらの新たな要求に応えることはますます困難になっていくでしょう。サプライチェーンの制約、システムインテグレーターの減少、クラウドプロバイダーの影響力増大など、コンピューティング市場における構造的な変化は、将来のスーパーコンピュータの調達・導入方法に関する従来の前提を揺るがしています。さらに、AIがハードウェア設計に多大な影響を及ぼしており、従来の科学的手法は岐路に立たされています。AIの潮流に乗るべきか、それとも従来の手法のためにハードウェアを活用するべきか、研究者コミュニティは重大な選択を迫られているのです。本講演では、米国科学アカデミーがまとめたポストエクサスケール・コンピューティングの将来に関するコンセンサスレポートの主要な知見を紹介し、「現状維持では不十分である」という同レポートの見解を解説します。また、研究コミュニティが直面する課題と機会について、私自身の見解も交えてお話ししたいと思います。 - 物理学における公平性。 - 社会科学でよくとりあげられる - 学習データのバイアス - 物理的な制約による材料設計 - 3Dトランスフォーメーション - テトリスのような形 - Bitter Lesson: [The Bitter Lesson](http://www.incompleteideas.net/IncIdeas/BitterLesson.html) - AI in science - Pivot \#2 The changing Culuture of AI - Five Stages of AI * エクサスケール第1世代の稼働で、アプリケーション能力とシステムソフトウェアは前進した一方、要求側（高精度シミュレーション、ML導入、計測・IoT由来の巨大データ分析、対象領域の拡大＝自然科学→社会科学/政策/人文）が急拡大しており、供給側が追いつきにくくなっている。 * 技術的な制約として、チップのスケーリング限界（Dennard scalingの終焉、Moore則の鈍化）により、弱スケーリング的に“台数で押す”だけでは性能向上が逓減し、エネルギー/電力が主要制約になっている。 * 市場構造の変化（サプライチェーン制約、システムインテグレーター減少、クラウド事業者の影響力増大）が、従来のスーパーコンピュータ調達・導入モデルを揺さぶり、「現状維持では不十分」という米国科学アカデミーのポストエクサスケール報告の問題意識につながる。 * AIがハードウェア設計を強く駆動し、科学計算コミュニティは「AIに合わせる（AIハードを活用/転用する、AI-in-Scienceを主軸にする）」のか「従来型の科学計算のためにハードを最適化する」のか、戦略的選択を迫られている。 * AIを科学に適用する際の“論点群”として、(1) 物理法則をモデルに組み込むか/学習させるか、(2) マルチスケール学習、(3) 不確かさ定量化、(4) 公平性（学習データバイアスや物理制約下の設計など）、(5) 解釈可能性（予測できても機構が不明だと科学として不満）を挙げ、学際的な議論の必要性を強調。 * 「Bitter Lesson（計算資源と汎用学習が最終的に勝つ）」を踏まえつつも、AIは“加法的（additive）”であり、シミュレーションや実験・データキュレーションを置き換えるものではない。AIを使うためにも、実験/シミュレーション由来の高品質データ整備がボトルネックになる。 * 科学コミュニティの文化変容として、AI導入の心理的プロセスを「否認→怒り→取引→抑うつ→受容（Five Stages）」になぞらえ、理工だけでなく芸術・人文まで含め“知らずに拒否”ではなく“理解した上で位置づける”必要を説く。 * AIの得手不得手を整理し、言語・翻訳・論理などは得意だが、現実世界での身体性（歩行・操作など）や少数例学習の難しさが残る点を指摘。科学発見では、AIが信号検出を助ける一方で、ブラックボックス的フィルタが「異常値＝発見の種」を捨てる危険もある（CMB発見の逸話を例示）。 * 研究評価・出版文化の歪みとして、投稿爆発（例：NeurIPSの大量投稿）により査読が限界に近づき、AI生成レビューや引用ハルシネーション（架空著者・架空引用）など品質劣化が顕在化している。科学×AIの共同体が“証明・実証の基準”を再構築する必要がある。 * アーキテクチャ観点では「hardware lottery（利用可能ハードに適合する研究が勝つ）」を紹介し、AI向けハード（GPU/TPU等）が研究の方向性を規定し得る点を問題提起。 * Roadrunner(2008)→Frontier(2022)などの比較を通じ、微細化は進んでも電力増大と効率改善の鈍化が顕著で、今後は性能よりも“エネルギー/データ移動コスト”が支配的になるという見立てを示す。 * アルゴリズム側の変化要因は2つ（アプリ起因とアーキ起因）。アーキ起因としては、階層的並列性の拡大、低精度化、通信削減が重要。同期を避け、通信と計算を重ね、分岐の少ないデータ並列が有利になる。 * 具体例として、メタゲノムアセンブリのような不規則（ヒストグラム/グラフ探索/文字列整列等）ワークロードをGPUに写像する困難と、そのための工夫を紹介。今後、TPU等の専用系を“本来用途外”へ転用する局面で同種の努力が必要になる。 * 「motif / dwarfs / seven giants」的に問題構造を見立て、密行列か疎行列か、N-bodyか、独立並列か等で、どのハード・最適化が効くかを整理する思考枠組みを提示。 * 通信回避（communication-avoiding）の例として、N-body/Transformerにも通じる「複製→局所計算→集約」により総通信量とメッセージ数を減らせる、直感に反するがスケールする設計原理を説明。GNN（疎行列）などにも拡張可能だと示す。 * 投資・エコシステム面では、AIインフラ投資が科学計算投資を大きく上回り、HPCコミュニティの産業への影響力が相対的に低下している。結果として、科学側は「自前で科学向けプロセッサを設計する」よりも「産業が作るAIハードを取り込む/共用する」戦略比重が高まる可能性がある。 * 施設運用・ソフトウェア面の論点として、HPCのバッチ運用（巨大ジョブ短時間）とAIの運用（中規模GPUを長時間、対話的推論、データモデル差）を同一センターでどう共存させるかが難所。スケジューラ/ファイルシステム/ポリシー設計や、センターを分割・複製するかの判断が課題。 * 人材・研究競争力の格差問題として、計算資源へのアクセスが国・機関間で不均等になり、トップ校の地位すら長期的に揺らぎ得る。大学としては学内全分野（AI以外、社会科学・人文も含む）の需要増に応える重圧があり、単独最適ではなく地域・国家レベル連携が望ましいが、現実には機関単位での対応を迫られている。 * 結論として、AI時代のHPCは「アプリ・アルゴリズム・アーキテクチャ・運用・市場」のスタック全体で意思決定が必要な転換点にあり、科学コミュニティは小さなプレイヤーであることを自覚しつつ、標準・品質・再現性・評価の枠組みを含めて戦略的に動くべきだ、というメッセージで締めた。 ### Keynote 2: Accelerating scientific discovery with quotum-centric computing > 量子コンピューティングが優位性の時代へと移行する中、アルゴリズム開発は量子コンピューティングを実用的なレベルに引き上げる上で極めて重要な段階として注目されています。この移行を促進するため、量子産業においては高性能なハードウェア、効率的なソフトウェア、そして古典計算資源と量子計算資源のシームレスな連携が不可欠です。本講演では、ジェイ氏がIBMの量子コンピューティング戦略について解説します。具体的には、量子計算に特化したスーパーコンピューティング用ソフトウェアとアルゴリズムの最新動向、および大規模かつ耐障害性に優れた量子コンピュータ実現に向けたIBMのハードウェアロードマップについて詳述します。私たちは共に、コンピューティングの未来を築いているのです。 * **量子中心（quantum-centric）スーパーコンピューティングのビジョン** * 将来の計算基盤は **QPU・CPU・GPUが協調動作**する異種混合アーキテクチャ。 * 量子計算単体ではなく、古典計算との往復（ハイブリッド）が科学的発見を加速する中核。 * **量子計算の適用可能性** * ハミルトニアンシミュレーション、微分方程式、最適化などで理論的な高速化が存在。 * 実用上は「量子回路＝qubit数 × ゲート深さ」で捉えるべきで、物理概念の説明より実行モデルが重要。 * **量子＋古典ハイブリッド計算の基本構造** * QPU：量子回路の実行 * CPU/GPU：前処理、最適化、後処理、制御、誤り緩和 * GPU・FPGA・専用ASICは誤り訂正・高速制御の鍵となる * **量子化学を例にしたアルゴリズム進展** * 分子エネルギー計算は指数的に大きい問題で、古典手法は近似に依存。 * VQEなどの変分量子アルゴリズムから発展し、 * 量子計算で**有効部分空間を抽出** * 古典計算で行列を対角化する **Quantum SCI / SQD** 手法を確立。 * 古典シミュレータを超える規模（45〜77 qubits）で量子＋古典協調計算を実証。 * **Fugaku隣接配置による成果** * 量子計算機をFugaku近傍に設置し、反復的な量子・古典ループを最適化。 * 77 qubit問題でDMRGに近い精度まで到達。 * **GPU導入による大幅高速化** * 行列・ベクトル演算をGPU（OpenMP）に移植。 * CPU比で **100倍以上、最終的に約300倍の高速化**を達成。 * NVIDIA/AMD GPUでスケーラブルに性能向上。 * GPU内部最適化によりさらに約20%改善。 * **より大規模分子・問題への拡張** * GPUで分子を分解・推論し、部分問題をCPU/QPUで処理。 * 約300 qubit規模の量子化学問題で有意味な結果を取得。 * **誤り緩和・誤り訂正への古典計算活用** * GPUを用いたテンソルネットワーク誤り緩和で、実行可能ゲート数を数千規模に拡張。 * 高度なノイズ解析・伝播モデルにより、古典では困難な領域で有効結果を取得。 * **誤り訂正の進展** * 論理qubit（〜140）で符号化により忠実度を約2倍改善。 * 深さ2500ゲートの論理回路で **最大236倍の改善**を実証。 * 高度に絡み合ったグラフ状態・ランダム回路で量子的優位性を示唆。 * **IBM量子プラットフォーム** * **Nighthawk（約120 qubit）**：動的回路、低遅延フィードバック、途中測定対応。 * **Qiskit**： * 実行・制御・古典連携・誤り訂正研究を統合するオープンスタック。 * v1：性能重視、v2：HPC（Slurm等）統合、v3：耐障害量子計算（FTQC）対応。 * **HPC統合とワークフロー** * Slurmを含む既存HPC資源と量子計算を同等リソースとして扱う設計。 * Prefect等と連携し、CPU/GPU/QPU混在ワークフローの可視化・最適化。 * **耐障害量子計算（FTQC）へのロードマップ** * **2029年までに200+ qubit・1億演算超のFTQCを構築**。 * 階層的誤り訂正コード（inner/outer codes）を前提とした設計。 * **LDPC符号を用いた誤り訂正アーキテクチャ** * Surface codeより **約90%効率向上**。 * ドーナツ状トポロジ、モジュール化、論理メモリ＋論理処理ユニット構成。 * Magic state factoryを含む普遍量子計算対応。 * **ハードウェア・実装技術** * マルチチップ接続、300mmファブ、長距離カプラ。 * モジュール型極低温システム、冷却CMOS制御。 * FPGAによるリアルタイムデコーダ実証（必要性能の20倍）。 * **研究コミュニティへの課題提起** * 量子＋古典＋GPUを前提とした新アルゴリズム設計。 * 大規模誤り訂正・誤り緩和の実証研究。 * 正しい異種計算アーキテクチャ設計。 * デバイス物理（増幅器・配線・制御）の継続的改善。 **総括** 量子計算は単独での優位性を目指す段階から、HPCと深く統合された「量子中心スーパーコンピューティング」へ移行しつつあり、アルゴリズム・GPU活用・誤り訂正・アーキテクチャ設計が今後の科学的ブレークスルーの鍵である。 ## LLM4HPCAsia 2026 > 生成型事前学習トランスフォーマー（GPT）モデルや大規模言語モデルMeta AI（LLaMA）などの現代的な大規模言語モデル（LLM）は、開発・公開以来、高品質な成果によって人間とコンピュータのインタラクションに革命をもたらしたと評されています。これらのLLMは、前例のない規模の投資と数千億パラメータに及ぶ巨大な学習モデルによってこの分野に革新をもたらしました。LLMの普及に伴い、多様なアプリケーションへの応用可能性に対する関心が高まっています。HPCコミュニティでは特に、コード生成、自動並列化、性能ポータビリティ、正確性など、様々なHPCタスクにおける現行LLMの能力を評価する研究が進められてきました。これらの研究結果はいずれも、最先端のLLM技術が現時点でこれらの用途に対して十分な性能を発揮できていないことを示しています。したがって、HPCの使命とその影響力をさらに拡大するためには、LLMの能力をさらに強化する新たな手法を模索することが不可欠です。 [LLM4HPCAsia 2026 \| ORNL GitHub Pages](https://ornl.github.io/events/llm4hpcasia2026/) ### **13,45-14,30**: Keynote: Updates on the Development of Japanese LLMs, Rio Yokota > 翻訳: 大規模言語モデル（LLM）は主にインターネット上のデータを用いて事前学習されており、そのデータの大半は英語です。このようなモデルは、非英語言語で使用した場合、性能が最適化されないという課題があります。さらに、LLMは万人に平等に恩恵をもたらす機械的なツールではなく、むしろ特定の知的ツールと言えます。その性能は、モデルの学習に用いたデータの種類によって、特定の人々のグループに不均衡な利益をもたらす傾向があります。加えて、LLMとのインタラクションは、長期的には私たちの地域文化にも影響を及ぼすでしょう。各地域の文化ニーズに合わせてモデルをカスタマイズするためには、主権的なLLMの開発が不可欠です。この講演では、日本におけるLLMトレーニングの最新動向についてご報告します。データ収集と学習プロセスの両面から詳しく解説いたします。横田理央氏は、東京科学大学統合研究機構スーパーコンピューティング研究センターの教授を務めています。また、理化学研究所計算科学研究センターではAI for Science基礎モデル研究チームを率いています。同氏の研究分野は、高性能コンピューティング、機械学習、線形代数の交差点に位置しています。2007年からGPU上でのアルゴリズム最適化に取り組んでおり、2009年には世界初のGPUスーパーコンピュータを用いてゴードン・ベル賞を受賞するチームの一員でした。近年では、ABCI、TSUBAME、富岳といった日本のスーパーコンピュータを用いた分散学習の取り組みを主導しています。日本語LLM「Swallow」および「LLM-jp」の共同開発者でもあり、ADACやTPCといった国際的な共同研究の組織にも関わっています。 - LLM-jp - MDX / ABCI / TSUBAME / GCP / Sakura - A100 - Llama3.1 8B - seqlen 8k - H100 - Llama3.1 8B - Parallelism - TP/CP/PP MBS - Adam eps=1e-5 - Swallow - Llama 3.3 Swallow 70B - * 講演冒頭の問題意識：LLMの推論コストは指数関数的に低下しており（年40倍ペース）、文脈長（context window）も急速に拡大している。一方で学習に使う計算量は年5倍で増え、ハードウェアの伸びを超えるためコスト増にもつながる。アルゴリズム改善は年3倍程度で「同等性能に必要な計算量を減らす」効果がある。 * 日本でのLLM学習の2つの取り組みが紹介された。 1. 大規模コンソーシアム（LLMJP）：大学・国研・企業が参加し、データ／学習レシピ／重み／失敗も含めてオープンに共有し、100B級の学習をリアルタイムで見られる教育的プラットフォームにもなっている。 2. 小規模だが機動的な継続学習（後半のSwallowなど）：既存オープンモデルを基盤に継続事前学習で能力を伸ばす。 * LLMJP側のHPC論点：学習効率（FLOPS達成率）とメモリ見積りが鍵。A100/H100での理論ピークに近づけるには、tensor/context/pipeline/data parallelとmicro-batch等の設定を精密に調整し、OOMリスクとFLOPSを両立させる必要がある。HPCの専門家がいないと大幅に遅い運用になりやすい。 * 大規模学習の“高い授業料”になった失敗例：Llama2の報告を鵜呑みにしてAdamのepsilon設定を誤り、巨大モデルでも精度が伸びない事態が起きた。ハイパーパラメータのわずかな違いが、数億円規模の損失につながり得るという教訓。 * LLM-JP3（172B dense）での観測：学習中に下流ベンチマーク（翻訳、QA、数学推論、読解など日本語ベンチ群）を逐次評価すると、タスクごとに伸び方が異なることが分かった。特に最大モデルが終盤で飽和し、その原因を個別ベンチで分解して追跡したところ、数学推論など特定タスクが頭打ちになる兆候が見えた。 * 期待挙動のモデリング：巨大モデル開発では「この曲線に乗るはず」という期待（シグモイド・フィットなど）を作り、外挿して性能見込みを立てるべき。172B級で初めて露呈する異常もあり、事前に期待値と乖離を検出できないと“不要な失敗”に巨額コストを払う。 * denseとsparse（MoE）の位置づけ： * dense＝total parametersとactive parametersが同じ（MoEなし）。 * sparse（MoE）＝総パラメータは大きいが、トークンごとに一部エキスパートだけが動く（activeが小さい）。 * 大規模化するほど「より疎（より多くのエキスパート、低い活性率）」がコスト効率上有利になり、業界はdense一辺倒からMoEへシフトしている、という主張。 * MoEの説明：エキスパートは「数学専門」「歴史専門」などのドメイン専門家というより、トークン単位でルーティングされる冗長なFFN群に近い。目的は精度のための“専門家合成”より、計算コスト削減（必要部分だけ活性化）にある。 * MoEの実験結果（LLMGPプロジェクト）： * Mixtra系の標準MoEで、幅（512→2048）、エキスパート数（8→256）、活性エキスパート数（2〜16）を振って評価。lossはきれいなトレンドを示した。 * 記憶系タスク（TriviaQA等）は「最終学習lossが低いほど精度が高い」という素直な相関。 * 算術／数学推論（GSM8K等）は相関が崩れ、lossが下がっても精度が悪化する設定があり、逆スケーリング（inverse scaling）傾向が出た。test-time computeや強化学習を加えても傾向が残った。 * tokens per parameter（TPP）という見方：学習トークン総数÷総パラメータ数で整理すると、GSM8Kのピークがある程度そろい、最適が「TPP ≈ 20」付近に見える。示唆として「データ（学習量）には最適サイズがあり、学習し過ぎると逆スケーリングが出る」可能性があるため、さらなる検証が必要。 * Swallowプロジェクトの要点： * 小予算（大学研究室2つ程度）でも、継続事前学習で国内の日本語モデルより高いスコアを狙える。スクラッチ学習は完全制御の利点があるがコストが重い。 * これは「ファインチューニング」ではなく、汎用性を保ったままの継続事前学習で、日本語能力を増強するアプローチ。 * 日本語モデルに固有の課題（トークナイゼーション）：日本語は語彙外文字がUTF-8バイト分解されるなどでトークン数が増えやすく、API課金が“英語より不利”になり得る。日本語をトークナイザに取り込むには、embedding層の再学習が必要で、そのための大量・高品質な日本語データが必要。 * データ構築（Common Crawlの自前クリーニング）： * Common Crawlから日本語を言語判定で抽出し、HTML等のノイズを除去し、precision/recall/F1を測りながら厳密にフィルタする。 * 実際に学習に使うのは生データのごく一部（数％）で、重複除去（MinHash等）は特に重要。重複が多いと学習が破綻し得る。 * 数学・コードデータの扱い：継続学習で数学・コード能力を維持するのは難しいが、Swallow Code（LLMで書き換えた合成データ等）で改善を図った。狙いは数学／コード特化ではなく、検証可能な形式言語（数学・コード）を通じて一般推論力・ツール利用能力を高め、幻覚を減らし、AI for Science／エージェント用途に耐える基盤能力を作ること。 * 全体の結論（講演のメッセージ）：大規模LLM学習は、モデル設計・並列化・メモリ／性能見積・データ品質・評価設計まで「システムからデータ、モデルまで」の総合戦で、期待挙動のモデル化と早期異常検知をしないと、数億円単位で失敗コストを払いかねない。 ### **14,30-15,00**: Paper talk: Evaluating Claude Code’s Coding and Test Au-tomation for GPU Acceleration of a Legacy Fortran Application: A GeoFEM Case Study, Tetsuya Hoshino ### ChatHPC * 講演の狙いは、AI支援・予測型の「SPC（Scientific/Parallel Computing）」開発エコシステムの基盤としての ChatSPC を提示すること。ChatSPC は (1) Python ライブラリ（手順・アーキテクチャ）と (2) その上に構築する AI アシスタント群（エコシステム）から成る。 * ChatSPC は既存の堅牢な AI 技術（LLM、Python など）を土台にし、HPC/SPC向けの機能にフォーカスした少数のコンポーネント/APIで、微調整（fine-tuning）・テスト・改良（refinement）・推論を簡単に回せるようにする。 * 利用プロセスは基本「3ステップ＋反復」： * Fine-tuning：最大のボトルネックは計算時間ではなく訓練データ準備。計算自体は A100/H100級GPUで概ね10～15分程度で可能と主張。訓練データはコード中心の JSON（コード入出力のタプル集合）。 * Testing：訓練データとテストデータは分離して厳密性を担保（同じ能力でもコード/アプリは別物）。 * Refinement：テストで「learning gap（学習の穴）」を特定し、訓練データへ追加して再学習→再評価を繰り返す。 * 実験は 7B 規模のベースモデル（Colama と言及）で実施。各 AI アシスタントは軽量で、追加の重み（アダプタ等）が ~100MB 程度、データセットも「コード中心で小さい」と説明。比較対象として「ベースモデル（微調整なし）」や当時利用可能だった ChatGPT-4 を用いる。 * 個別AIアシスタントの例： * コード移植・可搬性（CUDA→性能可搬モデル“Cocos”）：単なる変換だけでなく、非効率なCUDA（例：アトミック多用で並列性を活かしていない）を、バックエンド最適化を活かす形に置き換え、最大300倍級の高速化例を提示。 * 並列I/O（ADIOS2 系：ChatSatios2）：MPIコードに並列I/Oやデータ圧縮などの機能を付与。スケーラビリティや圧縮効果の評価を提示。ライブラリAPIの範囲が限定的なので、高い正答率に到達しやすいと説明。 * タスク化支援（Iris：ChatIris）：CUDA/HIP/OpenMP等で書かれたコードをタスクベース実行時(Iris)に落とし込み、移植性・マルチGPU活用を容易にする。タスク化は有効だが開発者負担が大きい点をAIで支援する狙い。 * 重要な観察として、HPCコードには構造的な類似（例：BLASレベル間のパターン、OpenMPとOpenACCの類似など）があり、訓練データを限定しても汎化できる可能性を示唆。例として、HIPコードで学習していなくても HIP→Iris の移植がうまくいったと述べる。 * HEPBenchを用いた「必要データ量」の検証： * HEPBenchは多数のベンチマークを含み、多くが CUDA/HIP/OpenMP/SYCL の4フレーバで提供され、移植学習データとして好適。 * カーネル数を増やした4種類の訓練データセットを作成し、訓練に使っていない約60カーネルでテスト。 * 訓練カーネル数を増やすほど性能（テストでの移植成功率）が向上し、最大22カーネル程度でも「同等レベルの移植性能」に到達しうる、と結論づける（能力によって必要データ量は小さくなり得る）。 * 改良（refinement）で追加するデータ量の効果は一律のトレンドがなく、能力・アプリ依存（データ要求が大きい能力もあれば小さい能力もある）。 * 今後の柱は「マルチモーダル」「推論（reasoning）」「エージェント化（agentic）」の3点。より複雑な能力へ拡張する。 * ChatSPCはオープンソースで、リポジトリ/ドキュメント/デモ（Supercomputingで提示）を公開。加えて、今年はドイツ・ハンブルクでISASPC（同時開催ワークショップ）を企画していると告知。 * 講演者の立場： * Fine-tuningは、データと専門知識があれば正答率（変換の正確性）を大きく上げられる。 * 過学習（overfitting）は注意点だが、特定ツール/能力に特化したアシスタントでは「悪」ではなく、むしろ目的に適う場合がある。ベースモデル自体は残るため一般QA能力を失うわけではない、という整理。 * 合成データ/実データの両方が使え、ループで結果を記録し、専門家の知識をデータに落とすことが重要。 * GPU1枚・15分程度でアシスタントを作れるので、実用面での敷居は低いと主張。 * 質疑応答（要点）： * 「小型モデルの微調整」vs「大型モデルのプロンプト/インコンテキスト学習」：どちらが勝者というよりトレードオフ。プロンプトで高性能を引き出すには一定の“使いこなし（専門性）”が必要になりがち。一方、微調整はデータ作成に専門家が必要だが、その後は非専門家でも安定して専門家級の結果を得やすい、という狙い。 * 「100MBとは？」：学習データではなく、ベースモデルに追加するアダプタ/追加重み（LoRA等）を指す。 * 使っている微調整手法：LoRA を利用していると明言。 ### **16,10-16,30**: Paper talk: Runtime Prediction for Local Deployment of Large Language Models: A Case Study on Qwen Models Covering LoRA Fine-Tuning, RAG, and Inference, Jian Guo ### **High performance communication library and transport for LLM training at 100K+ Scale** > LLaMAモデルの各世代において、モデルサイズと複雑さの両面で顕著な進化が見られます。当社のLLaMA4シリーズで最大のマルチモーダル混合エキスパートモデルは、総パラメータ数が約2兆、アクティブパラメータ数2880億、エキスパート数16という規模を誇ります。このような巨大なモデルを訓練するために必要な計算リソースに対応するため、当社はAIクラスタを拡張し、約10万台のGPUを導入しました。膨大な数のGPUを協調動作させる際には、GPU間通信の遅延時間が重要な要因となります。たとえマイクロ秒単位のわずかな遅延であっても、数千ノードに及ぶシステムでは累積的に影響し、結果として訓練時間に影響を及ぼします。そこで私たちは、高速なGPU間通信を実現するために必要な基盤ネットワークインフラを設計するとともに、通信ライブラリスタックを革新することで全体的な通信効率の向上を図りました。本発表では、Meta社のデータセンターで採用しているネットワークトポロジーの概要を紹介するとともに、モデルアルゴリズムから集合通信、そしてネットワークトランスポート層に至るまでの多層的な設計協調を通じてLLaMA4の訓練を可能にした、各種通信最適化手法と独自機能について詳細に解説します。ミン・シーはFacebook AIシステムのSW/HW共同設計グループに所属するリサーチサイエンティストです。彼女の主な役割は、Facebook AIのワークロードにおけるスケールアウトに関する興味深い課題の調査と解決に取り組むことです。それ以前は、アルゴンヌ国立研究所のアシスタントコンピュータサイエンティストとして、プログラミングモデルおよびランタイムシステムグループに所属していました。彼女の研究関心分野は、高性能コンピューティングにおける通信ランタイムシステム、並列プログラミングモデル、およびランタイムシステムの開発にあります。 #### Paper 要旨として、提示された英語原稿（研究背景〜手法〜結果〜質疑応答）を通しで読み直し、日本語で重要点だけを箇条書きに圧縮します。 * 近年、ソースコード同値性（equivalence）検証の重要性が高まっており、コードペアは概ね4種類に分類できる。 1. 空白・コメント差のみ、2) 識別子（変数名等）差のみ、3) 一部文が異なるが構造は類似、4) 構造は異なるが機能が同じ（意味的同値：semantic equivalence）。 * 特にタイプ4（意味的同値）は、リファクタリング、言語移植、共同開発（置換可能性の判断等）で重要。 * 例として、1〜nの総和を「forループ」で計算するコードと「等差数列の公式」で計算するコードは、人間には同値と分かるが、構造差が大きく自動検証は難しい。 * 従来手法の課題： * 字句・構文ベース比較はルール依存で、構造が異なると弱い。 * テストベースはテストケース有限で完全性がない。 * シンボリック実行は経路爆発で大規模コードにスケールしにくい。 → 高精度な意味的同値判定は困難。 * LLMを用いた関連研究： * プロンプト工夫（prompt engineering）でGPT-3.5/4等をベンチマーク（例：BicronBench、GPT-CronBench）で評価し、同値判定に可能性を示した。 * ただしLLMをブラックボックス扱いで、プロンプト頼み・二値出力中心になりがち。既存ベンチはJava/Python中心でHPC言語（例：Fortran）が薄い。 * アンサンブル（ensemble）系の既存アプローチ： * 複数LLMの判定を多数決で統合して頑健性を上げる。 * LLMを使わず、複数の類似度特徴量（cosine等）からML分類器で判定する方法もある。 * ただし網羅的な組合せ探索は少なく、特に「LLM内部表現（hidden states）を特徴量にする」系の検討が不足。 * 本研究の狙い：Fortranを含むHPCコードでも高精度な意味的同値判定を実現するため、LLMの内部表現＋ML分類器を組み合わせ、さらに多数決アンサンブルで精度と頑健性を上げる。 * データセット：既存のFortran対応データが乏しいため新規作成。Fortran/Python/C/C++のソースを収集し、3種のペアを作成。 * Pair1：非同値（問題が異なる） * Pair2：同値（同じ問題を解く） * Pair3：非同値（同じ問題だが解が違う／意味が違う） * タスク定義：Easy＝Pair1+Pair2、Difficult＝Pair2+Pair3。本発表は差が出やすいDifficultを中心に議論。 * 特徴抽出：コード片＋プロンプトをLLMに入力し、選んだ隠れ層（約30〜40層のうち特定層）からトークン埋め込みを取り出し、mean poolingで固定長ベクトル（semantic vector）を生成。 * 使用LLM例：DeepSeek Coder、Qwen2.5 Coder、ChatGPT-4。 * 分類器：抽出ベクトルを6種のML分類器で二値分類（同値/非同値）。 * kNN、LightGBM、MLP、Random Forest、SVM、XGBoost。 * アンサンブル：分類器出力（二値）を多数決で統合。LLM×層×分類器の広い探索を行い、良い層を絞って3モデルアンサンブルを総当たり評価し最良構成を探索。 * 評価： * ベースライン：プロンプトベースの多数決（prompt-based ensemble）。 * アブレーション：プロンプトのみ、特徴抽出＋分類器のみ、提案法（特徴＋多数決）。 * 複数seedで再現性評価（プロンプト側は言語別評価も実施）。 * 結果の要点： * 提案法がベースラインよりF1を大きく改善（発表中では+0.265、最終F1=0.972、ベースライン最良=0.717と主張）。 * 有効な特徴は中間層（例：11〜28層付近）に集中。浅い層は表層（構文）寄り、最終層は生成最適化寄りで、中間層が構文＋抽象意味のバランスが良い。 * 分類器はMLPが上位構成を多く占め、強力。kNNも一部で有効。 * プロンプトのみの観察：Fortranが他言語より著しく不利という傾向は見えず、モデルによりprecision/recallのバイアスが異なる（例：LLaMA系はrecall高め、ChatGPTやQwen系はprecision高め）ため、多数決により補完効果が出る可能性。 * 特徴抽出のみの例：DeepSeek Coder＋MLPでF1=0.913など高性能。中間層が強い傾向は一貫。 * 結論： * Fortranを含む複数言語（HPC領域）に対応し、LLM内部表現＋ML分類器＋多数決で高精度・頑健な意味的同値判定を実現。 * 中間層表現とMLP分類器が鍵。 * 質疑応答（コード規模と今後展開）： * 使用コードはプログラミングコンテスト由来で、1本あたり概ね200〜500行程度で大規模ではない。 * 今後の拡張として、OpenMP/MPI/CUDA/HIP/SYCL/Kokkos等の「並列プログラミングモデル間」の意味的同値判定は重要で、構造・実行モデルがさらに異なるため難度が上がるが、興味深い方向性として検討価値がある、という問題提起がなされた。 ## Networking - ## Notes & Thoughts