Rethinking AI Infrastructure LINEヤフーが描く、内製技術で切り拓くネットワークとエンジニアリングの新時代 – JANOG55 Meeting @Kyoto

大浦晋(LINEヤフー株式会社) 道下幹也(LINEヤフー株式会社) |16:45|17:45 2024.11.122025.01.21 ### 概要本発表ではLINEヤフーの新たな機械学習基盤を構築する中で、「我々の抱える課題」と「課題解決に必要な技術が何か？」を一から再考することで見えてきた、ネットワークインフラとエンジニアの新たな未来について議論します。国内外に自社DCを持ち、プラットフォームを独自に構築している我々は常に特有の課題を抱えており、その解決方法やより良い基盤のあり方を模索し続けてきました。特にこの数年のAIやLLMを筆頭とする関連技術の躍進は目覚ましく、プラットフォームとネットワーク運用のあり方を考える転換期にきていると認識しています。我々は課題解決者として既存パッケージや外注ではない内製開発をベースとし、一般的に必要と言われる要素技術・構成の一つ一つに対してなぜそれが必要なのかという「Why?」の観点からアプローチしました。これによりリファレンスアーキテクチャにとらわれない技術スタックを積み上げることを選択し、上記の課題を解決する基盤を実現しました。本発表では、我々のプラットフォームが抱えていた課題を踏まえ、データセンター、ネットワーク、サーバ、アプリケーションなど様々なレイヤにまたがって具体的な技術紹介を行うとともに、課題解決の方法やそのプロセスから得られた様々な知見を紹介します。またその上で技術の今後や、これからのエンジニアのあり方について議論したいと思います。 ### 議論ポイント - 要素技術の選定理由 - なぜ RoCEv2 を選んだのか - なぜ RailOptimizedTopology が有効と言えるのか - Kubernetes 環境向けの Network をどのように構成したか - 流行っている技術・構成は本当に必要なのか - 一般的な構成はどのような前提がもとにあるのか - 一般的な構成から外れることによるメリットやデメリット - オンプレミスでGPUクラスタを持つ意義とは - Ultra Ethernetをどう見ていますか？何を期待していますか？ - コンピューティングとネットワークの境界が曖昧になりつつある世界で生き残るには - この先ネットワークエンジニアとして「利用する側」から「作り提供する側」になるためには ### 場所第3展示場A ### 日時 Day1 2025年1月22日(水) 16:45～17:45(1時間) ### 発表者道下幹也 Michishita Mikiya LINEヤフー株式会社 ### 事前資料 - [[AIインフラ革命 ─ 米国データセンターとGPUを支える技術基盤（Rethinking AI Infrastructure Part 1）]] - [[GPUクラスタネットワークとその設計思想（Rethinking AI Infrastructure Part 2）]] ### 公開資料 - [Rethinking AI Infrastructure: LINEヤフーが描く、内製技術で切り開くネットワークとエンジニアリングの新時代](https://www.janog.gr.jp/meeting/janog55/wp-content/uploads/2024/11/janog55_ai-infra_lycorp.pdf) ## メモ - NIC 200/400/800 - 400G 8枚 - サーバのバス内よりも遅い - Multi-workload - Detection/LLM/Recommend - k8sとの連携 - - [[PXN]]はSender側でしか動作しないことがわかった - ユーザ要求のグラデーションがある ![[Pasted image 20250122170730.png|600]] - [[DOCA]] - High Frequency Samplingなどの機能があるため、マイクロバーストによる影響などが観測できるようになるのではないかという期待クラスタの全体をどれぐらい効率よく使えるのか？指標を設計されていたりするのか？も似たりネットワーク帯域、 flops、 job completion timeの統計とか？ - 上野さん - NVStree