# Cost-Efficient Dragonfly Topology for Large-Scale Systems Source: [[John Kim]]・[[William J. Dally]]・[[Steve Scott]]・[[Dennis Abts]] / IEEE Micro / [PDF](https://static.googleusercontent.com/media/research.google.com/ja//pubs/archive/35154.pdf) > [!note] 本稿は ISCA 2008 原典 [[@2008__ISCA__Technology-Driven, Highly-Scalable Dragonfly Topology]] の 3 ページ短縮版である。IEEE Micro 掲載のサマリであり、独自の評価実験を含まない。原典の主要な知見を凝縮して伝えることを目的とする。 ## 概要 ピン帯域幅の増大(約 10 年で 1 桁増)と能動光ケーブルの経済的普及が、ハイラジックスルータを用いた新しいトポロジ設計を可能にする。本論文は **Dragonfly トポロジ**を紹介し、コスト効率と適応ルーティングの両観点から既存トポロジを上回ることを主張する。 ## 背景:技術変化がトポロジ選択を決定する 1980〜90 年代はピン帯域幅が低く、2D/3D メッシュや トーラスが最適であった。過去 20 年でルータ帯域幅は 5 年で 1 桁増のペースで拡大し(Moore の法則に匹敵)、ハイラジックスルータが登場した。Cray BlackWidow はラジックス 64 ルータを用いた折り畳み Clos ネットワークを採用した初の商用実装例として言及される。 ネットワークコストはチャネル(ケーブル)、特にキャビネット間の長大なグローバルケーブルが支配する。ハイラジックスネットワークはグローバルチャネルが長くなるが、能動光ケーブルの普及により長距離でも経済的になった。 ## Dragonfly トポロジの核心 ### グループ(仮想ルータ)の概念 Dragonfly は複数のハイラジックスルータをグループとして束ね、グループ全体を仮想的な超ハイラジックスルータとして扱う。これによりシステム全体の実効ラジックスを大幅に引き上げ、最小ルーティング時に各パケットが通過するグローバルチャネルを最大 1 本に削減する。 ラジックス 64 ルータを用いると、直径 3 ホップで 256K ノードを超えるシステムに到達できる。これはフラット化バタフライ(スケーラビリティが単一ルータのラジックスに制限)と比べ、追加の次元なしにグループサイズを拡張することでスケールを達成するという差異がある。 ### 既存トポロジとの比較 - **折り畳み Clos(fat-tree)**: 負荷均衡トラフィックに対して過剰な帯域コストを払う。Dragonfly は 16K ノード以上で **52% のコスト削減**。 - **フラット化バタフライ**: 各パケットが複数のグローバルチャネルを通過するためコストが高い。Dragonfly は **20% のコスト削減**。 - **3D トーラス**: 短い電気ケーブルで済むが必要なチャネル本数が多い。Dragonfly は最大 **60% のコスト削減**。 ## 適応ルーティングの問題と解決 Dragonfly で適応ルーティングを実現するには、**間接性の問題**に対処する必要がある。均衡させるべきグローバルチャネルが、ルーティング決定を行うルータとは別のルータに接続されているため、従来の適応ルーティング(キュー占有率ベースの UGAL)は性能劣化を生じる。 論文は 2 つの改善手法を導入する。 1. **選択的仮想チャネル分離 (UGAL-VC)**: 最小経路と非最小経路が同一出力ポートを共有するときのみ、両経路に異なる仮想チャネルを割り当てる。帯域劣化を解消する。 2. **クレジット往復レイテンシ (UGAL-CR)**: クレジット往復時間の通常値からの偏差を計測し、上流へのクレジット返信を遅延させてバックプレッシャーを強化する。中間負荷での高遅延問題を解消する。 2 手法の組み合わせにより、理想実装(UGAL-G)に近いスループットとレイテンシを達成する。 ## 意義と展望 Dragonfly の階層構造はキャビネット単位のパッケージング階層と対応する。ローカルチャネルを電気伝送・グローバルチャネルを光伝送とする技術分担が自然に成立し、能動光ケーブルの経済的特性(高固定費・低距離単価)を活かせる。 著者らは将来のネットワークでグローバル適応ルーティングがますます重要になると論じ、間接適応ルーティングの限界特定と克服手法が長期的に意義を持つと述べる。データセンターやインターネットルータ・ストレージエリアネットワーク等の大規模システム全般への適用可能性を指摘する。 ## 原典との関係 本稿は [[@2008__ISCA__Technology-Driven, Highly-Scalable Dragonfly Topology]] の短縮サマリであり、数式・シミュレーション設定・詳細な評価グラフは原典を参照すること。本稿では定性的な記述と主要なコスト比較数値のみが提示される。 ## 関連 - 概念: [[Dragonflyトポロジ]] / [[マルチプレーンClosトポロジ]] / [[ネットワークトポロジ]] - エンティティ: [[John Kim]] / [[William J. Dally]] / [[Steve Scott]] / [[Dennis Abts]] / [[Northwestern University]] / [[Stanford University]] / [[Cray Inc.]] / [[Google]] - 原典: [[@2008__ISCA__Technology-Driven, Highly-Scalable Dragonfly Topology]] - 関連 MOC: [[structures/分散深層学習 - MOC]] ## 出典 - PDF: https://static.googleusercontent.com/media/research.google.com/ja//pubs/archive/35154.pdf - 著者所属: [[Northwestern University]] / [[Stanford University]] / [[Cray Inc.]] / [[Google]]