2026__SCA__Beyond Exascale - Dataflow Domain Translation on a Cerebras Cluster

## Memo ## Memo with LLM ### Paper Information - **Title**: Beyond Exascale: Dataflow Domain Translation on a Cerebras Cluster - **Authors and Affiliations**: Tomas Oppelstrup, Nicholas Giamblanco, Delyan Z. Kalchev, Ilya Sharapov, Mark Taylor, Dirk Van Essendelft, Sivasankaran Rajamanickam, Michael James (Lawrence Livermore National Laboratory, Cerebras Systems, Sandia National Laboratories, etc.) - **Conference/Journal name**: Supercomputing Asia (SCA) / HPCAsia 2026 - **Publication year**: 2026 ### Paper Summary 物理システムのシミュレーションにおいて、従来のドメイン分解法が抱えるネットワークレイテンシによる性能限界を克服するため、新しい「ドメイン変換（Domain Translation）」アルゴリズムを提案した論文です。64台のCerebras CS-3システムからなるクラスター上で、浅水方程式を用いた惑星規模の津波シミュレーションにおいて、ピーク性能の88%という極めて高い利用率と1秒あたり160万タイムステップという前例のない実行速度を実証しました。 ### Detailed Explanation - **Problem Setting**: 物理システムのシミュレーション（ステンシル計算など）を大規模な分散環境で実行する際、従来の固定的なドメイン分解法では、各ステップで境界データの交換が必要となり、ネットワークレイテンシがボトルネックとなってシミュレーション速度と計算リソースの利用率が低下します。特にエクサスケールシステムでは、典型的な地球システムモデルにおいてピーク性能の数%しか発揮できないという課題がありました。 - **Proposed Method**: 提案手法である「ドメイン変換（Domain Translation）」は、各反復ステップごとにグリッドポイントとプロセッサの対応関係を一定数（ステンシルの到達範囲 $p$）だけ「変換（移動）」させるアルゴリズムです。これにより、ネットワークリンクを流れるトラフィックが単方向となり、ネットワークレイテンシの累積的な影響を回避できます。計算プレーンを時空間で45度「傾ける」ことで、データの局所性を維持しつつレイテンシを隠蔽します。このアルゴリズムは、Cerebras WSEのような空間・データフローアーキテクチャに最適化されています。 - **Novelty**: 従来のゴーストポイント法やタイリング法とは異なり、単方向のトラフィックフローを生成することで、ネットワークレイテンシをサブドメインの幅全体で償却できる点が新規性です。これにより、サブドメインサイズが一定以上であれば、利用率を損なうことなく、計算性能と帯域幅のみに依存した高速な反復が可能になります。 - **Experimental Setup**: 64台のCerebras CS-3ウェハースケールエンジン（WSE）からなるクラスターを使用しました。評価には、5点および9点中心差分を用いた熱伝導方程式と、惑星規模の津波シミュレーションのための浅水方程式（SWE、Lax-Wendroff離散化、RK2時間積分）が用いられました。強スケーリング（コアあたりのグリッドポイント数 4〜4k）と弱スケーリング（1〜64ノード）の両面から評価を行いました。 - **Experimental Results**: - **スループット**: 1秒あたり160万タイムステップを超えるシミュレーション実行速度を達成しました。 - **利用率**: ステンシル計算において、システムピークの66%に相当する84 PFLOP/s（電力無制限環境では112 PFLOP/s）を達成しました。 - **スケーラビリティ**: 64ノードにおいて、ピーク性能の88%というほぼ完璧な弱スケーリングを実現しました。 - **電力効率**: 電力制限環境下で 57 GFLOP/J という極めて高い電力効率を実証しました。 - **応用例**: 460m解像度での小惑星衝突後の惑星規模津波シミュレーションに成功しました。 ## Abstract 物理システムのシミュレーションは、科学および工学の様々な分野で不可欠です。一般的に使用されているドメイン分解法では、ネットワークコンピューティング環境において、高いシミュレーション速度と高い利用率を同時に達成することはできません。特に、エクサスケールシステムでは、これらのワークロードに対してピーク性能のごく一部しか発揮できません。本論文では、これらの制限を克服するために設計された新しいドメイン変換アルゴリズムを導入します。64台のCerebras CS-3システムからなるクラスター上でこの手法を使用し、1秒あたり160万タイムステップを超えるシミュレーション実行、およびピーク性能の88%での完全な弱スケーリングなど、様々な指標で前例のないクラスター性能を実証します。このクラスター規模において、我々の実装は電力制約のない環境で112 PFLOP/s、電力制限のある環境で57 GFLOP/Jを提供します。この手法を、小惑星衝突後の津波を惑星規模で460m解像度でモデル化するために浅水方程式を適用することで説明します。