https://mpls.jp/2025/index.html
## IOWN APNを活用した分散データセンタ検証事例 張 暁晶(NTTドコモビジネス)
- ドコモビシネスは約70箇所のDC
- APN plusは1300回線以上
- Interop Tokyo 2025 ShowNet
- IOWNユースケース
- 遠隔経由でGPUクラスタを使う - 湘南アイパーク x IOWN
- 製薬創薬研究で使うからセキュリティ要件が厳しい
- Confidential Computingも組み合わせ
- スマートシティ
- 千歳市の自動運転バス実証実験
- 無人化して、バス外バス内のカメラを遠隔地へ映像をリアルタイム伝送
- 大阪万博
- 3D空間が伝送される体験
- 3Dメガネ
- AI向けGPUインフラの要件と課題
- ラックあたりの電力密度
- 冷却能力
- 床荷重制限
- 事業継続災害復旧
- AIワークロードの継続性
- 巨大なAIデータセットやモデル
- AIインフラ 総務省見解
- 地方分散しつつ、オール光
- 分散DC x IOWN
- 首都圏へのDC一極集中
- AIによるGPUニーズ
- GPU over APN
- 分散配置 GPUクラウド
- 処理量の変動に応じてオンデマンドGPUリソース確保
- 構成方法
- GPUサーバ同士を引き離し
- GPUサーバとストレージを引き離してみる
- アプリケーションからみると地理分散していることはわからない
- 2DC 1DC leaf x spineでDC間をAPN接続
- AI学習 Training
- 秋葉原 三鷹DC
- APN 100Gbps 35km
- 100?G Eth SW
- GPUサーバ H100 x 2
- NVIDIA NeMo
- LLM (tsuzumi 7B)
- 処理時間 1stepあたりの時間 x 所定ステップ数
- 単一DC -> (分散DC)APN 1.005倍
- 3拠点?
- 分散DC (internet TCP)
- ping RTT 0.526ms
- Bandwidth 100GBS
- RTT 15.0ms Band 300Mbps (tcで制限)
- 8.36倍
- 距離を増やしたとき
- (DC海外想定) vs DC(日本想定)
- 100Gbps , 500km~3000km
- 1.07倍
- 5.10倍
- ping RTT 30.6ms <> 50.6ms
- AI推論
- H100 x 4来 x 3ノード
- AIME
- gemma3 27B 複数並列(8モデル) 多数決
- 分散DC(APN)は1.009倍 ?
- 拠点間データ転送
- 遠隔ストレージ性能
- NFS obver RDMA
- GPU Direct Storageベンチマーク gdsio READスループット
- IOサイズを大きくしていくと分散DCが単一DCに接近するスループット
- APNが遅れて立ち上がる
- 小さいI.Oブロックでは遅い
- MLPerf Storage
- Unet 3Dモデル
- NFS nconnect 100km距離で1.07倍
- 800G広帯域実証
- DC(武蔵野) <-> DC(秋葉原)
- 800G-ZR
- RDMA転送ツール
- RDMA弱点は長距離伝送
- 接続の並列化 1回あたりのの転送データ量増加
- Send Queue を並列化
- 他方式(scp,rsync,nfs,mscp)より1/6へ
-
Q&A 100GBpsのうち、70-80GBps消費している
## 2. A study on accelerating LLM inference using KV cache sharing with IOWN APN
田仲 顕至
(NTT デバイスイノベーションセンタ)
- OCP APAC Summit:25の発表内容の深堀り
- なぜ分散DCか?
- AMDのキーノート GPU数年1.6倍増加
- 電力負担が高い
- 送電 変電にも負荷がかかる
- 印西市 電気足りない 送電ふやす 地下ケーブルで1.5倍にした
- 集中型DCのみでは需要の速度に追いつけない
- 小型DCを分散展開
- IOWN All-Photonics Network
- KVキャッシュ
- 永続ストレージに保存して他のGPUでも使い回す
- ユーザー間キャッシュ共有
- Alibaba cloudだとCache hit.missで料金
- KVキャッシュ再利用率は、良いケースで6割
- KVキャッシュの前方一致
- ユーザ情報やメモリを含むシステムプロンプトがあるので、ユーザー間の共有は難しい
- コンテキストを個別にキャッシュしても精度が落ちる
- KVキャッシュ間の関係性には再計算が必要でコストがかかる。Prefillをフル計算したくない、CacheBlend (EuroSys'25) Decode, KVShare
- 部分的にキャッシュを再計算
- 不定形入力でも共有率>50%が可能
- SCBenchでベンチマーク
- CacheBlend -> LMCache
- vLLMにおけるKVキャッシュマネージャーであったが、NVIDIA Dynamoからもサポート
- llm-dも
- KVキャッシュ圧縮転送
- 計算と通信のオーバラップ
- NIXLとの連携
- NTT Early Adaptor
- 初期検討:共有KVストレージ
- NW帯域 7B-mistral
- input 1k, KVキャッシュサイズ 120MB A100
- 10Gだと9割 TFTT改善
- 100Gだと
- 検証2 APNをエミュレート
- 文書のKVキャッシュ
- Llma-3.1-8B
- TTFT短縮効果は維持される
- 電力効率もよくなる
道下さんから
- ストレージ・ソリューションはなに?
- MoonCake?とかは使ってない
- 普通のストレージ
- Hot Spotが生まれる
- TTFTテールが長い
- CacheBlend -> シャーディングみたいな効果 -> TTFTテールが短くなるのでは?
- KVキャッシュをコールドなストレージ
- どれぐらいの大きさで、どれぐらいのブロック
- 入力トークン x モデルサイズ
- KVキャッシュをどれぐらいのチャンクで書くかは、ハンドチューニング用
- CacheBlend的には細かいほうがいい
- ストレージ側のキャッシュにどうのせるか?
- あるKVキャッシュがどこにあるかをどう検索するか?
- LMCache
- Mooncacke 中央コントローラ
- Dynamoも同じ
- consistent hashingを使う
## 3. AIネットワークのボトルネックを打破する:JuniperによるAI ロードバランシングの革新
- 塚本 広海, Mahesh Subramaniam
- (ジュニパーネットワークス)
- HPEがjuniper買収
- AI/MLクラスター
- 自動チューニング手法
- DCQCN -> ECN/PFC 送信タイミング
- バッファ割当
- 負荷分散:フロー識別やflowテーブルサイズなど
- JANOGでは銀の弾丸がないといわれる
- Juniperではラボで机上で計算したり
- Apstra
- CI Cluster templateが最近実装された
- GPUの数とかNIC帯域とか入力とかすると、Rails optimizerの構成を生成して、コンフィグも生成される
- 可視化
- マイクロバーストとかの可視化
- Rail単位の可視化
- Apstra GPUエージェントをインストールするとNICの情報がとれる
- PFC/tail dropはないがECN発生
- ECS遅くする
- こういうのが自動化できる AutoTune
- バッファの fill-levelも設定する
- GPU側のOOS(out of sequence)を監視
- これをトリガーにinactivety_interbalを増加
- ロジックにAI/ML使えないかの議論はある
- AI DC Software
- RDMA-aware
- QP分割してIPv6 addrつける
- カラーリングして経路を選択できる。
- ECMPなしで決定論的なパスを選択できる。
- No ECS, No PFC, No OOS
## SRv6 uSID for AI Backend Network
CISCO
- MPLS Japan 6回 award
- AIのbackendネットワークにSRv6 uSID
- エレファントフローが大きい
- Traditional ECMPでは難しい
- AI Training Traffic
- Long lasting
- Low Entropy
- Higly synchronized
- Periodic
- Bursty, maximum link capacity
- Predictable!
- IPV6 uSIDを用いたDetermionitsicにパスを選択
- GPUがe2eでパスをコントール可能
- SRv6の本質
- アプリケーションがnetwork programとしてe2eのパス制御
- Smart NICレベルでFB loopを高速に回せる
- Ultra Scalable: SRv6ステートレス
- Ultra Convergence: GPU(NIC)がSRV6パス切り替え可能
- uSIDがNICやスイッチを識別
- そのあとのロケーター情報をみて転送
- NICが経路上のuSIDたちを指定する
- スイッチがパケットがなにかは無視して、ヘッダだけみて転送する
- NIC側制御だけ
- 障害ではNICがuSIDを変更することでパス切り替え
- 検証結果がCISCOの著作権のみじゃない...
- いい結果が得られている...
- MSの事例
- Global topo managerがBGPでトポロジ情報もたせて、local topo mgrがNICに対して設定してあげる
- sSwitch
- 高度なCongestion Control
- SRv6 Path Tracing
- probeだしながらpathの可視化性
- これがCongestion Controlに有効なのでは?
- SONiCで実装
## AIネットワークの可視性の提供 -CVP UNO(Universal Network Observability)
- AIネットワークでなにが必要なのか?
- 症状の検出には優れているがRCAは手作業
- 自己診断ネットワーク
- プロアクティブリスク分析
- CloudVision UNO
- Realtime telemetry
- コントローラを用意するのが大変
- ネットワークの観測性
- アプリケーションの発見
- 依存関係のマッピング
- Metaの論文の障害分類
- EOS LANZ (latency Analyzer)
- ASICの状況
- マイクロ秒でキュー混雑
- ボックスがマイクロバースをみる機構がないとだめ
- CVaaS CV UNO
- Jobとネットワークパフォーマンスの統合
- 相関分析
- EOS AIエージェント
- ECMP cluster loadbalancing
- QPごとに負荷分散できる
- トラフィックの偏り
1. - 「AI時代のデータセンター」セッション
- - AI-RANが実現するモバイルインフラの未来像
- 野崎 潔
- (ソフトバンク)
- - データセンター排熱技術検討
- 杉田 正
- (エルエックススタイル)
- - MUPアーキテクチャ - コンピューティングとモバイルアクセスの設計と実装
- 松嶋 聡
- (ソフトバンク)
1/10
1/12
1/17
1/24 17:04 原因特定
1/27 17:00
---
DynamoDBで
internal DNS
100万個
遅延したモジュールが古いものでレコードを上書き
30-40台ぐらいdrain
空孔コアファイバ
ライテラジャパン
武笠さん
シリカガラス -> 空孔コアファイバ(中国は力をいれている)
ほぼシリカガラスと空気の内部構造
ガンマ線とかあてても損失が少ないので、宇宙に持っていけるかも
ファイバの融着ができない
遅延で制限されるとことを50%のばせる
ファイバは損失が高いと、0.174。
アンチレゾナントファイバの損失、
CO2とか水分入っちゃうと長期間運用でどうなるかはまだわからない。
CO2とかなにも入らない状態であれば、2年ぐらいは損失が悪化しない。
水圧、
ファイバは中国から帰る?
伝送実験としてはすごく良いパフォーマンスがでる。研究者とかはこれをやる。
UPS、発電機は中国から買っていいか?
国の指針はないのか?
インフラを変える技術らしい
そろそろ量産のフェーズなのでは?と
経産省