2025__PEARC__InterconnectLens - Enhancing Observability of Data Transfers in GPU Clusters

## Memo ![[Pasted image 20260203102305.png]] ![[Pasted image 20260203102452.png]] ## Memo with LLM ### 論文情報 - 論文のタイトル: InterconnectLens: Enhancing Observability of Data Transfers in GPU Clusters - 著者と所属: Koshi Eguchi, Ryo Nakamura, Yohei Kuga, Kenjiro Taura (The University of Tokyo) - カンファレンス/ジャーナル名: PEARC '25 (Practice and Experience in Advanced Research Computing 2025) - 発表年: 2025 ### 論文概要本論文は、GPUクラスタにおける[[NCCL]]（NVIDIA Collective Communications Library）を用いたデータ転送の[[Observability|可観測性]]を向上させるフレームワーク「InterconnectLens」を提案している。現代のAI/HPCワークロードにおける通信ボトルネックを解消するため、論理的な通信操作を物理的なNVLinkトポロジやリソース競合状況にマッピングし、詳細なパフォーマンス分析を可能にする。 ### 詳細解説 #### 問題設定大規模なGPUクラスタにおける分散深層学習やHPCアプリケーションでは、GPU間の通信（NCCL操作）がスケーラビリティの主要な制約となっている。しかし、NVLinkやNVSwitchを介した複雑なトポロジにおいて、どの通信操作がどの物理パスを使用し、どこで競合が発生しているかを正確に把握することは、既存のプロファイリングツール（Nsight Systemsなど）では困難である。特にマルチノード環境において、アプリケーションレベルの通信パターンとハードウェアレベルの挙動を対応づけることが求められている。 #### 提案手法提案手法「InterconnectLens」は、NCCLの挙動とNVLinkファブリックの物理的な情報を統合して可視化するフレームワークである。 - **通信パターンの抽象化**: NCCLのコレクティブ通信（AllReduceなど）を、基礎となる個別のデータ転送ストリームとして捉える。 - **物理トポロジのマッピング**: これらの転送ストリームを、NVLinkのトポロジおよび物理リンクの使用状況にマッピングする。 - **リソース競合の特定**: 同一のNVLinkやNVSwitchを複数のストリームが共有することによる競合を、遅延特性や帯域幅利用率から特定する。 #### 新規性従来のプロファイリングツールがGPU内部の計算（カーネル実行）や単純な通信帯域の測定に主眼を置いているのに対し、InterconnectLensは**NCCL操作とインターコネクト（NVLink）のトポロジ的対応**を動的に可視化する点に新規性がある。これにより、特定のアルゴリズム（Ring vs Treeなど）がトポロジに対して最適であるかを定量的かつ視覚的に評価できる。 #### 実験設定東京大学の情報基盤センターなどで運用されているGPUクラスタにおいて評価を行った。評価指標として、各リンクの帯域幅利用率、通信遅延、およびNCCL操作の完了時間を用いた。 #### 実験結果 InterconnectLensを用いることで、特定のマルチノード構成において発生していた予期せぬ通信ボトルネック（ホットスポット）を特定することに成功した。また、異なるNCCLアルゴリズムがNVLinkファブリックのリソース競合に与える影響を分析し、特定のトポロジにおいてよりリソース効率の高い構成を導き出せることが示された。 ## Abstract 本要約では、NVLinkインターコネクトを介したNVIDIAのCollective Communications Library（NCCL）を利用するGPUクラスタの通信パフォーマンスについて深い洞察を提供するために設計された新しいフレームワーク「InterconnectLens」を紹介する。現代のハイパフォーマンスコンピューティング（HPC）やAIワークロードは、効率的なGPU間通信に大きく依存しており、データ交換の最適化はスケーラビリティとシステム全体の物理スループットを決定する重要な要因となっている。NCCLとNVLinkは広帯域かつ低遅延の通信プリミティブを提供するが、複雑なマルチGPU・マルチノード環境におけるパフォーマンスのボトルネックを理解し診断することは依然として大きな課題である。InterconnectLensは、NVLinkファブリック全体の通信パターン、帯域幅利用率、および遅延特性の包括的かつ抽象的なビューを提供することで、この課題に対処する。本フレームワークは、NCCL操作を基礎となるNVLinkトポロジとリソース競合にマッピングし、NCCL操作に対する詳細な可視性を提供する。これにより、開発者やシステム管理者は通信のホットスポットを特定し、異なるNCCLアルゴリズムの影響を分析し、アプリケーションのパフォーマンスとリソース効率を向上させるためにGPUクラスタ構成を最適化することが可能になる。