# Cost-Efficient Dragonfly Topology for Large-Scale Systems
Source: [[John Kim]]・[[William J. Dally]]・[[Steve Scott]]・[[Dennis Abts]] / IEEE Micro / [PDF](https://static.googleusercontent.com/media/research.google.com/ja//pubs/archive/35154.pdf)
> [!note] 本稿は ISCA 2008 原典 [[@2008__ISCA__Technology-Driven, Highly-Scalable Dragonfly Topology]] の 3 ページ短縮版である。IEEE Micro 掲載のサマリであり、独自の評価実験を含まない。原典の主要な知見を凝縮して伝えることを目的とする。
## 概要
ピン帯域幅の増大(約 10 年で 1 桁増)と能動光ケーブルの経済的普及が、ハイラジックスルータを用いた新しいトポロジ設計を可能にする。本論文は **Dragonfly トポロジ**を紹介し、コスト効率と適応ルーティングの両観点から既存トポロジを上回ることを主張する。
## 背景:技術変化がトポロジ選択を決定する
1980〜90 年代はピン帯域幅が低く、2D/3D メッシュや トーラスが最適であった。過去 20 年でルータ帯域幅は 5 年で 1 桁増のペースで拡大し(Moore の法則に匹敵)、ハイラジックスルータが登場した。Cray BlackWidow はラジックス 64 ルータを用いた折り畳み Clos ネットワークを採用した初の商用実装例として言及される。
ネットワークコストはチャネル(ケーブル)、特にキャビネット間の長大なグローバルケーブルが支配する。ハイラジックスネットワークはグローバルチャネルが長くなるが、能動光ケーブルの普及により長距離でも経済的になった。
## Dragonfly トポロジの核心
### グループ(仮想ルータ)の概念
Dragonfly は複数のハイラジックスルータをグループとして束ね、グループ全体を仮想的な超ハイラジックスルータとして扱う。これによりシステム全体の実効ラジックスを大幅に引き上げ、最小ルーティング時に各パケットが通過するグローバルチャネルを最大 1 本に削減する。
ラジックス 64 ルータを用いると、直径 3 ホップで 256K ノードを超えるシステムに到達できる。これはフラット化バタフライ(スケーラビリティが単一ルータのラジックスに制限)と比べ、追加の次元なしにグループサイズを拡張することでスケールを達成するという差異がある。
### 既存トポロジとの比較
- **折り畳み Clos(fat-tree)**: 負荷均衡トラフィックに対して過剰な帯域コストを払う。Dragonfly は 16K ノード以上で **52% のコスト削減**。
- **フラット化バタフライ**: 各パケットが複数のグローバルチャネルを通過するためコストが高い。Dragonfly は **20% のコスト削減**。
- **3D トーラス**: 短い電気ケーブルで済むが必要なチャネル本数が多い。Dragonfly は最大 **60% のコスト削減**。
## 適応ルーティングの問題と解決
Dragonfly で適応ルーティングを実現するには、**間接性の問題**に対処する必要がある。均衡させるべきグローバルチャネルが、ルーティング決定を行うルータとは別のルータに接続されているため、従来の適応ルーティング(キュー占有率ベースの UGAL)は性能劣化を生じる。
論文は 2 つの改善手法を導入する。
1. **選択的仮想チャネル分離 (UGAL-VC)**: 最小経路と非最小経路が同一出力ポートを共有するときのみ、両経路に異なる仮想チャネルを割り当てる。帯域劣化を解消する。
2. **クレジット往復レイテンシ (UGAL-CR)**: クレジット往復時間の通常値からの偏差を計測し、上流へのクレジット返信を遅延させてバックプレッシャーを強化する。中間負荷での高遅延問題を解消する。
2 手法の組み合わせにより、理想実装(UGAL-G)に近いスループットとレイテンシを達成する。
## 意義と展望
Dragonfly の階層構造はキャビネット単位のパッケージング階層と対応する。ローカルチャネルを電気伝送・グローバルチャネルを光伝送とする技術分担が自然に成立し、能動光ケーブルの経済的特性(高固定費・低距離単価)を活かせる。
著者らは将来のネットワークでグローバル適応ルーティングがますます重要になると論じ、間接適応ルーティングの限界特定と克服手法が長期的に意義を持つと述べる。データセンターやインターネットルータ・ストレージエリアネットワーク等の大規模システム全般への適用可能性を指摘する。
## 原典との関係
本稿は [[@2008__ISCA__Technology-Driven, Highly-Scalable Dragonfly Topology]] の短縮サマリであり、数式・シミュレーション設定・詳細な評価グラフは原典を参照すること。本稿では定性的な記述と主要なコスト比較数値のみが提示される。
## 関連
- 概念: [[Dragonflyトポロジ]] / [[マルチプレーンClosトポロジ]] / [[ネットワークトポロジ]]
- エンティティ: [[John Kim]] / [[William J. Dally]] / [[Steve Scott]] / [[Dennis Abts]] / [[Northwestern University]] / [[Stanford University]] / [[Cray Inc.]] / [[Google]]
- 原典: [[@2008__ISCA__Technology-Driven, Highly-Scalable Dragonfly Topology]]
- 関連 MOC: [[structures/分散深層学習 - MOC]]
## 出典
- PDF: https://static.googleusercontent.com/media/research.google.com/ja//pubs/archive/35154.pdf
- 著者所属: [[Northwestern University]] / [[Stanford University]] / [[Cray Inc.]] / [[Google]]