Astral - yuuk1's Digital Garden

# Astral [[Nanjing University]] と [[Tencent]] らが構築した、LLM 訓練・推論向けに最初から設計されたデータセンターインフラ(SIGCOMM 2025、[[@2025__SIGCOMM__Astral - A Datacenter Infrastructure for Large Language Model Training at Scale]])。最大 50 万(512K)GPU を相互接続でき、2023 年 7 月以降 18 か月で段階展開され、現在 2 Pod・128K GPU を稼働させている。(Source: [[@2025__SIGCOMM__Astral - A Datacenter Infrastructure for Large Language Model Training at Scale]]) 3 本柱の協調設計から成る。 - **Astral ネットワーク**: tier-2 上の同一レール相互接続を 3 原理(P1 同一レール ToR の集約で Pod 最大化、P2 全階層同一帯域で均一抽象、P3 NIC ポートを別 ToR へ繋ぐ冗長化)で実現する 3 階層構成。単一レールで最大 8K GPU、1 Pod で 64K GPU、クラスタで 512K GPU を帯域オーバーサブスクリプションなしに繋ぐ。物理展開のため分散 HVDC 電源(TDP +30% の弾性供給)と空気液体統合冷却(冷却プレート併用)を導入し、平均 PUE を最大 16.34% 改善。 - **フルスタック監視**: アプリ/トランスポート/ネットワーク/物理の 4 層を、クロスホスト水平比較と層間相関で結びつけ、明示ログを出さない fail-slow/fail-hang まで根本原因を特定。障害箇所特定時間(MTTLF)を日単位から分単位へ(最大 25 倍)短縮。 - **[[Seer]]**: オペレータ粒度の予測コンポーネント。実測スループットによる自己補正で数秒以内にタイムラインを生成(密モデルで 0.3% 偏差)。実績: 本番 Hunyuan-MoE 訓練で 8K GPU でも効率損失 0.6%(ほぼ線形)。Meta/ByteDance の CLOS 系・Alibaba HPN(rail-optimized)・Meta rail-only と異なり、同一レール最大化とクロスレール接続・全階層同一帯域を両立する。同グループの後続 [[Pulse]](ASPLOS 2026)は本システムを Astral として引用する。 ## 関連 - ソース: [[@2025__SIGCOMM__Astral - A Datacenter Infrastructure for Large Language Model Training at Scale]] - 概念: [[LLM分散学習]] / [[LLM学習モニタリング]] / [[GPUクラスタ運用]] / [[Fault Localization]] - エンティティ: [[Seer]] / [[Tencent]] / [[Nanjing University]] / [[Harvard University]] / [[Qingkai Meng]] / [[Chen Tian]] / [[Pulse]]