[[Microsoft]] が提案・実装したクロスサイト LLM 推論ルーター([[@2026__arXiv__XWind - A Cross-site Router for Large Language Model Inference Serving at Renewable Energy Farms]])。[[AI Greenferencing]](風力発電サイトに GPU コンピュートを直接配置する展開モデル)の中核システムとして機能し、電力可変・地理分散した複数サイトへ推論リクエストを動的分配する。
## アーキテクチャ
XWind は 2 層構造で構成される:
**XW-Slc(XWind Site-local Controller)**:
各 Greenferencing サイト内のサイトローカルコントローラ。アクティブノード数 N と GPU 動作周波数 f の **デュアルノブ**を同時制御し、瞬間的な電力バジェット内で推論性能を最大化する。
- 決定サイクル: 3 分(15 分電力予測窓を 5 ステップで消化)
- 風力予測を事前対応的に利用し、テレメトリシグナルで補正
- シグナル: KV キャッシュ利用率(先行指標)、TBT レイテンシ(遅行指標)、キュー深度
**XWind(クロスサイトルーター)**:
データセンターリージョンに配置され、複数サイトへのルーティング重みを毎秒更新する。
- ルーティング重み: $W_i = N_i \times f_i$(瞬間的トークン処理能力の近似)
- 事前対応パス: 容量・周波数変化時に即時リセット
- 反応パス: 15 秒ごとに EMA 平滑化 TBT で尾部補正
## 主な設計判断
- **ワークロード非依存**: オフラインプロファイリング・出力長予測を不要にし、実時間テレメトリのみで動作
- **選択的な関与**: 全サイトが電力需要を満たしている場合はパッシブ。XW-Slc が電力逼迫を予測した時だけ起動
- **非対称補正**: KV キャッシュ超過時 2Δf、TBT 超過時 Δf(KV の急峻な飽和クリフに対してより積極的に補正)
- **発振防止**: XW-Slc がノードをアイドル化すると XWind が即時にルーティング重みを縮小し、キュー積滞の発振サイクルを断ち切る
## 評価結果
64 × A100 40GB テストベッド(3 サイト: 32/16/16 GPU)、Llama 3.1 8B、vLLM v1、Azure 本番トレース:
- Max-FLOPS(デュアルノブだがテレメトリなし)に比べ、コーディング 175 RPS で XW-Slc が P99 E2E 22% 削減、会話で 52% 削減
- 静的ルーティングとの比較で XWind が P99 E2E を 69× 削減
- 単一ノブベースライン(Idle/Power-Capping/Downclock)は電力収縮時に 370 s 超に到達
## 関連
- [[AI Greenferencing]] — XWind が支える展開モデル
- [[Microsoft]] — 開発元
- [[Debopam Bhattacherjee]] — 論文の対応著者
- [[LLM推論]] — 対象ワークロード
- [[vLLM]] — 評価に使用した推論フレームワーク