[Open in github.dev](https://github.dev/) [Open in a new github.dev tab](https://github.dev/) [Open in codespace](https://github.com/codespaces/new/ebiken/janog/tree/main?resume=1) ## Files ## Latest commit ## 既存のAI/HPC関連ネットワーク技術 Table of Contents - [参考文献](https://github.com/ebiken/janog/blob/main/JANOG55/hpc/#%E5%8F%82%E8%80%83%E6%96%87%E7%8C%AE) - [過去のJANOGセッション](https://github.com/ebiken/janog/blob/main/JANOG55/hpc/#%E9%81%8E%E5%8E%BB%E3%81%AEjanog%E3%82%BB%E3%83%83%E3%82%B7%E3%83%A7%E3%83%B3) - [AI/HPCネットワーク関連(日本語)](https://github.com/ebiken/janog/blob/main/JANOG55/hpc/#aihpc%E3%83%8D%E3%83%83%E3%83%88%E3%83%AF%E3%83%BC%E3%82%AF%E9%96%A2%E9%80%A3%E6%97%A5%E6%9C%AC%E8%AA%9E) - [AI/ML関連:その他(日本語)](https://github.com/ebiken/janog/blob/main/JANOG55/hpc/#aiml%E9%96%A2%E9%80%A3%E3%81%9D%E3%81%AE%E4%BB%96%E6%97%A5%E6%9C%AC%E8%AA%9E) 既存のAI/HPC関連ネットワーク技術は、大きく分類するとロスレスイーサネット、輻輳制御、ロードバランシング、の3つを実現する技術から構成されます。 これらの既存技術に関してはJANOGなどで解説されていますので、UECの技術を理解するための前提知識として "参考文献" に記載した資料を一読しておくと良いでしょう。 ロードバランシング技術は様々な技術がありますが、ベンダを問わずサポートされているのはDLBです。 Table 1. 既存のAI/HPC関連ネットワーク技術 | 機能 | 代表的な技術 | | --- | --- | | ロスレスイーサネット(Lossless Ethernet) | - PFC (802.1Qbb, Priority Flow Control) | | 輻輳制御(Congestion Control) | - DCQCN (ECN, Sender-driven) | | ロードバランシング(Load Balancing, Fabric utilization) | - Dynamic Load Balancing (flowlet) - NVIDIA Adaptive Routing (flowlet?) - Packet Spray (Packet based) - Scheduled Fabric (VoQ) (Cell based) | ## 参考文献 ### 過去のJANOGセッション - JANOG54 生成AI向けパブリッククラウドサービスをつくってみた話 - [https://www.janog.gr.jp/meeting/janog54/sakura/](https://www.janog.gr.jp/meeting/janog54/sakura/) - 井上 喬視, 高峯 誠, 平田 大祐 さくらインターネット株式会社 - JANOG54 ネットワークオペレーションにおける生成AI技術の活用検討について - [https://www.janog.gr.jp/meeting/janog54/genai/](https://www.janog.gr.jp/meeting/janog54/genai/) - 佐藤 亮介, 白井 嵩士, 田口 順史, 近藤 優吉 株式会社NTTフィールドテクノ - 宮坂 拓也, 株式会社KDDI総合研究所 - 仲松 匠, KDDI株式会社 - AI/MLネットワークではなくAIをネットワーク運用に活用する内容。GPTの概要を解説している。 - JANOG53 AI(人工知能)の為のネットワーク - [https://www.janog.gr.jp/meeting/janog53/ainw/](https://www.janog.gr.jp/meeting/janog53/ainw/) - 土屋 師子生, アリスタネットワークスジャパン合同会社 - JANOG52 AI/ML基盤の400G DCネットワークを構築した話 - [https://www.janog.gr.jp/meeting/janog52/aiml400/](https://www.janog.gr.jp/meeting/janog52/aiml400/) - 内田 泰広, 小障子 尚太朗, 株式会社サイバーエージェント - JANOG50+ パケットロスと遅延 - [https://www.janog.gr.jp/meeting/janog50plus/docs/janog50plus-maz-losslatency.pdf](https://www.janog.gr.jp/meeting/janog50plus/docs/janog50plus-maz-losslatency.pdf) - 松崎 吉伸(株式会社インターネットイニシアティブ) - JANOG43 LINEのネットワークをゼロから設計した話 - [https://www.janog.gr.jp/meeting/janog43/application/files/7915/4823/1858/janog43-line-kobayashi.pdf](https://www.janog.gr.jp/meeting/janog43/application/files/7915/4823/1858/janog43-line-kobayashi.pdf) - Masayuki Kobayashi, LINE Corporation ### AI/HPCネットワーク関連(日本語) - GPUクラスタネットワークとその設計思想(Rethinking AI Infrastructure Part 2) - [https://techblog.lycorp.co.jp/ja/20250115a](https://techblog.lycorp.co.jp/ja/20250115a) - LINEヤフー株式会社 小林、深澤 - "GPUネットワーク設計・運用 基礎勉強会 Lossless Ethernet - PFC/ECN編" - [https://speakerdeck.com/markunet/ecnbian](https://speakerdeck.com/markunet/ecnbian) - LINEヤフー株式会社 小林正幸 - AI時代のデータセンターネットワーク - [https://speakerdeck.com/lycorptech\_jp/dcnw\_in\_the\_ai\_era](https://speakerdeck.com/lycorptech_jp/dcnw_in_the_ai_era) - 第40回 情報ネットワーク・ネットワークシステム研究ワークショップ - LINEヤフー株式会社 小林正幸 - EthernetベースのGPUクラスタ導入による学びと展望 - [https://speakerdeck.com/lycorptech\_jp/20241202](https://speakerdeck.com/lycorptech_jp/20241202) - NVIDIA AI Summit Japan 2024 - LINEヤフー株式会社 小林正幸、道下幹也 - Podcast: fukabori.fm "124. AI時代のGPUクラスタ、DCネットワーク" - [https://fukabori.fm/episode/124](https://fukabori.fm/episode/124) - LINEヤフー株式会社 小林正幸、道下幹也 - PFNにおけるアクセラレータ間通信の実際 / MPLS Japan 2024 - [https://speakerdeck.com/pfn/mpls-japan-2024](https://speakerdeck.com/pfn/mpls-japan-2024) - Yuichiro Ueno / Preferred Networks, Inc. - "イーサネットが高信頼ネットに進化する, \[3\] 中核はフロー制御をつかさどる「PFC」と「ETS」" - [https://xtech.nikkei.com/it/article/COLUMN/20091006/338383/](https://xtech.nikkei.com/it/article/COLUMN/20091006/338383/) - 2009-10-15 日経クロステック ### AI/ML関連:その他(日本語) - Distributed Cache Empowers AI/ML Workloads on Kubernetes Cluster / KubeCon + CloudNativeCon North America 2024 - [https://speakerdeck.com/pfn/kubecon-plus-cloudnativecon-north-america-2024](https://speakerdeck.com/pfn/kubecon-plus-cloudnativecon-north-america-2024) - 生成AI向け機械学習クラスタ 構築のレシピ - 北海道石狩編 - [https://speakerdeck.com/pfn/20240615-cloudnativedayssummer-pfn](https://speakerdeck.com/pfn/20240615-cloudnativedayssummer-pfn) - Cloud Native Days Summer 2024 - 実際に運用してわかった!多種GPU混載Kubernetesクラスタの使われ方と運用省力化 - [https://speakerdeck.com/pfn/cloudnativedaystokyo23-shiota](https://speakerdeck.com/pfn/cloudnativedaystokyo23-shiota) - Tetsuya Shiota 株式会社PreferredNetworks - CNDT2023: CloudNative Days Tokyo 2023 - (2023年末) LLMの現在 - 今のLLMを取り巻く状況について紹介します。 - [https://speakerdeck.com/pfn/llmnoxian-zai](https://speakerdeck.com/pfn/llmnoxian-zai) - Preferred Networks, いもす ([[email protected]](https://github.com/ebiken/janog/blob/main/JANOG55/hpc/))