# Alibaba HPN [[Alibaba Group|Alibaba]] が SIGCOMM 2024(Qian+)で提示した、rail-optimized な LLM 訓練向けのデータセンターネットワーク(High-Performance Network)。(Source: [[@2025__SIGCOMM__SkeletonHunter - Diagnosing and Localizing Network Failures in Containerized Large Model Training]]) - rail-optimized トポロジでは、通信が同一 rail 内で完結し、クロス rail 通信は集団通信ライブラリが intra-host NVLink + 同一 rail の inter-host 転送へ自動変換する。 - [[SkeletonHunter]] はこの HPN の rail-optimized 構造を前提とし、full-mesh から同一 rail 外のペアを除く基本 ping リスト(8 GPU/8 RNIC のホストで 87.5% 削減)を構成する。 ## 関連 - ソース: [[@2025__SIGCOMM__SkeletonHunter - Diagnosing and Localizing Network Failures in Containerized Large Model Training]] - 開発機関: [[Alibaba Group]] - 関連システム: [[SkeletonHunter]] - 概念: [[RDMAネットワーク監視]] / [[LLM分散学習]] / [[集合通信]]