# AIBrix: Towards Scalable, Cost-Effective Large Language Model Inference Infrastructure
> [!abstract] 概要
> 本論文では AIBrix を紹介する。AIBrix はクラウドネイティブかつオープンソースのフレームワークであり、クラウド環境における大規模 LLM デプロイの最適化と簡略化を目的として設計されている。従来のクラウドネイティブスタックとは異なり、AIBrix は協調設計(co-design)の思想に従い、インフラの各レイヤーが vLLM のような推論エンジンとシームレスに統合されるよう目的別に構築されている。
>
> AIBrix は推論コスト削減と性能向上のため、高密度 LoRA 管理による動的アダプタスケジューリング、LLM 固有の自動スケーラ、プレフィクス対応かつ負荷対応のルーティングなど、複数の革新的機能を導入している。さらに効率を高めるため、AIBrix は分散 KV キャッシュを組み込み、ノードをまたいだトークン再利用を促進することで、スループットを 50% 向上させ、推論レイテンシを 70% 削減する。また、ベンダー非依存のエンジン互換性を維持しながらモデル管理を合理化する統合 AI ランタイムも提供する。
>
> 大規模マルチノード推論に対しては、AIBrix はハイブリッドオーケストレーションを採用している。粗粒度スケジューリングに Kubernetes を、細粒度実行に Ray を活用することで、効率と柔軟性を両立させる。さらに、SLO 駆動の GPU オプティマイザがリソース割り当てを動的に調整し、サービス保証を維持しながら異種サービング(ヘテロジニアスサービング)のコスト効率を最大化する。最後に、AIBrix は AI アクセラレータ診断ツールによってシステム信頼性を高め、自動障害検知とモックアップテストを通じて障害耐性を向上させる。
>
> AIBrix は https://github.com/vllm-project/aibrix で公開されている。
## 論文情報
- **著者**: AIBrix Team(Jiaxin Shan, Varun Gupta, Le Xu, Haiyang Shi, Jingyuan Zhang, Ning Wang, Linhui Xu, Rong Kang, Tongping Liu, Yifei Zhang, Yiqing Zhu, Shuowei Jin, Gangmuk Lim, Binbin Chen, Zuzhi Chen, Xiao Liu, Xin Chen, Kante Yin, Chak-Pong Chung, Chenyu Jiang, Yicheng Lu, Jianjun Chen, Caixue Lin, Wu Xiang, Rui Shi, Liguang Xie ほか)
- **所属**: 主に ByteDance。一部は University of Michigan・University of Illinois Urbana-Champaign・DaoCloud からの参加
- **連絡先**:
[email protected]
- **掲載**: arXiv:2504.03648v1 [cs.DC]、2025年2月22日
- **リポジトリ**: https://github.com/vllm-project/aibrix
- **エンティティページ**: [[AIBrix]]
## 概要
[[AIBrix]] は、LLM 本番推論に特化したクラウドネイティブオープンソースフレームワークである。モデル最適化・推論エンジン・システムレベルオーケストレーションという三層のうち、既存のインフラが手薄だったオーケストレーション層を埋めることを主眼とする。vLLM プロジェクト傘下で開発されており、LLaMA・DeepSeek・Qwen・Mistral などのオープンソースモデルを本番環境で効率的にホストするための課題を体系的に解決する。
コントロールプレーンとデータプレーンの二層構造を持ち、前者がモデルメタデータ登録・自動スケーリング・アダプタ管理・ポリシー適用を担い、後者がリクエストディスパッチ・スケジューリング・推論実行を担う。
## 問題設定
LLM の本番デプロイには、モデルや推論エンジンの最適化だけでは解決できない複数の運用課題がある。
**スケーリングの困難**:
- DCGM メトリクスの制限により、GPU バウンドなリソース使用パターン(KV キャッシュメモリ圧迫など)を QPS や同時接続数ベースの自動スケーラでは正確に捉えられない
- 大規模モデルのイメージ転送と起動に 2〜3 分を要するため、急激な負荷増加に自動スケーラが追従できない
**コストと異種 GPU 利用**:
- 同質 GPU 環境では調達コストが高くなるが、異種 GPU 環境では入出力トークン長やモデルの組み合わせによって最適な GPU タイプが変わり、管理が複雑化する
**KV キャッシュの非効率**:
- チャットボットやエージェントシステムのようなマルチターンアプリケーションでは、重複するトークン列がプレフィル(prefill)フェーズで冗長な計算を引き起こす
- 単一ノードのキャッシュはメモリ制約・エンジン固有の制限があり、KV マイグレーションやプレフィル-デコード分離(prefill-decode disaggregation)をサポートしない
**既存フレームワークの限界**:
- Knative・Istio などのマイクロサービス基盤は GPU ベースの推論ワークロードを想定しておらず、トークンベースのレート制限や KV キャッシュ対応の自動スケーリングに対応しない
- KServe・RayServe は汎用 ML サービングには適しているが、LLM 固有の最適化(バッチスケジューリング・KV キャッシュ連携・異種 GPU スケジューリング)を持たない
## 提案手法
### 高密度 LoRA 管理(High-Density LoRA Management)
LoRA アダプタを静的に付属させる従来手法とは異なり、AIBrix は動的なアダプタ登録・アンロードと LoRA 対応ルーティングを実現する。Kubernetes の Service・EndpointSlice 機構を活用してアダプタの検出と配置を最適化し、vLLM の LoRA 管理機能を拡張して混合ワークロード下での推論性能を向上させる。ロングテールシナリオにおける推論コスト削減に特に有効である。
### LLM 固有の自動スケーラ
KV キャッシュ利用率と推論固有メトリクスをリアルタイムで活用するミリ秒単位のスケーリングを実現する。カスタムメトリクスパスを迂回してスライディングウィンドウ方式のメトリクス集計をスケーラ内部に直接維持することで、リアルタイム負荷レポートを実現する。Knative Pod Autoscaler(KPA)と AIBrix Pod Autoscaler(APA)の両アルゴリズムをサポートする。ネイティブ HPA と比較して、レイテンシ 11.5% 削減・トークンスループット 11.4% 向上・スケーリング振動 33% 低減を達成する。
### 高度な LLM ゲートウェイとルーティング戦略
Envoy Gateway を拡張した LLM 対応 API ゲートウェイを導入する。トークンパターン・プレフィクスキャッシュ可用性・計算オーバーヘッドを分析して最適なインスタンスへトラフィックを誘導する。ルーティングポリシーとして random・throughput・least-request・least-kv-cache・least-latency・prefix-cache-aware の 6 種類をサポートする。平均レイテンシを 19.2%、P99 レイテンシを 79% 削減する。また Google らと連携して gateway-api-inference-extension プロジェクトへの採用も進めている。
### 統合 AI ランタイムと GPU ストリーミングローダ
AIBrix コントロールプレーンと推論エンジンポッドの橋渡しとなる統合 AI ランタイムを導入する。vLLM・SGLang・TensorRT-LLM を対象にベンダー非依存のサポートを提供し、LoRA アダプタコントローラ・自動スケーラ・コールドスタートマネージャとのシームレスな連携を実現する。ディスク I/O ボトルネックを回避するための GPU ストリーミングローダも備える。
### 分散 KV キャッシュプール(Distributed KV Cache Pool)
高容量かつクロスエンジンの KV 再利用を実現する分散 KV キャッシュを導入する。主な革新要素は以下のとおりである。
- **スキャン耐性の退避ポリシー**: ホット KV テンソルを選択的に永続化し不要なデータ転送を削減する
- **非同期メタデータ更新**: オーバーヘッドを最小化する
- **キャッシュエンジン同置(colocation)**: 共有メモリを通じてデータ転送を高速化する
Bird-SQL ベンチマーク(4 × NVIDIA A10 GPU)でのベンチマーク結果、vLLM のプレフィクスキャッシュと組み合わせると、vLLM プレフィクスキャッシュ単独と比べてピークスループットを約 50% 向上させ、平均 TTFT・P99 TTFT をそれぞれ約 65%・約 77% 削減する(表 1 参照)。
### 混合粒度マルチノード推論オーケストレーション(Mix-Grain Multi-Node Inference Orchestration)
Llama-3.1-405B や DeepSeek-R1 などの超大規模モデルへの需要増に対応するため、細粒度アプリケーションオーケストレーションには Ray を、粗粒度リソース管理には Kubernetes を用いるハイブリッドアプローチを導入する。vLLM ネイティブの分散サポートがパラレリズムを優先するのに対し、AIBrix はローリングアップグレードや本番グレードのオーケストレーションを両立させる。ByteDance による Kubernetes・Ray ワークロードの大規模運用経験が設計に反映されている。
### コスト効率的・SLO 駆動の異種 GPU サービング
GPU オプティマイザ(ロードモニタ・GPU オプティマイザ・ポッド自動スケーラの三コンポーネント構成)を導入する。ILP(整数線形計画法)ベースのソリューション(Mélange に着想)で最適な GPU 組み合わせを動的に選択する。ShareGPT と内部 Text2SQL ワークロードを混合した実験では、A10 と L20 を混在させた異種構成が同質 L20 構成と比較して最大 20% のレイテンシ増に収まりながら約 10% のコスト削減を実現した。
### AI アクセラレータ診断・障害モックアップツール
GPU 診断とモックアップの二つのツールを提供する。前者はビルトイン機能を活用して障害を自動検知し、ワークロードに影響が出る前に問題を特定する。後者は GPU 障害をシミュレートして障害耐性テストを可能にする。現時点では NVIDIA GPU と Ascend 910B NPU をサポートする。
## 新規性
### 既存フレームワークとの差別化
| フレームワーク | 限界 | AIBrix の対応 |
|---|---|---|
| Knative | トークンベース制限・KV キャッシュ対応スケーリング非対応 | LLM 固有自動スケーラ・KV キャッシュメトリクス活用 |
| Istio | LLM には不要なサービスメッシュオーバーヘッド | 軽量推論特化のゲートウェイ |
| KServe | 汎用 ML 向け、LLM 固有最適化なし | プレフィクスキャッシュ対応ルーティング・LoRA 管理 |
| RayServe | LLM 推論エンジンとの深い統合なし | AI ランタイムサイドカーによる統合 |
| vLLM(ネイティブ) | パラレリズム優先でサービス指向要件に弱い | ハイブリッドオーケストレーションで本番要件を充足 |
### クラウドネイティブ協調設計の哲学
AIBrix の本質的な新規性は、推論エンジンとインフラを独立した層ではなく共同設計の対象と捉える点にある。vLLM プロジェクト傘下での開発により、推論エンジンの内部実装に深く踏み込んだ最適化(LoRA 管理の拡張、KV キャッシュの外部化など)が可能になっている。
## 実験設定
- **分散 KV キャッシュ**: Bird-SQL ベンチマーク、4 × NVIDIA A10 GPU
- **LLM 固有自動スケーラ**: KPA・APA とネイティブ HPA の比較
- **ルーティング戦略**: 各ポリシー間のレイテンシ比較
- **異種 GPU サービング**: A10 と L20 の混合構成 対 同質 L20 構成。ShareGPT・内部 Text2SQL ワークロードの混合データセットを使用
## 実験結果
**分散 KV キャッシュ**:
- vLLM デフォルト(チャンクドプレフィル・プレフィクスキャッシュ無効)比: スループット 129%↑、平均 TTFT 73%↓、P99 TTFT 79%↓
- vLLM プレフィクスキャッシュ比: スループット 52%↑、平均 TTFT 65%↓、P99 TTFT 77%↓
**LLM 固有自動スケーラ(ネイティブ HPA 比)**:
- レイテンシ 11.5%↓
- トークンスループット 11.4%↑
- スケーリング振動 33%↓
**LLM 対応ゲートウェイ**:
- 平均レイテンシ 19.2%↓
- P99 レイテンシ 79%↓
**異種 GPU サービング**:
- 同質 L20 構成比でレイテンシ最大 20%↑(SLO 内に収まる)
- コスト約 10%↓
## 考察
AIBrix の成果は、LLM サービング特有の状態管理(KV キャッシュ)と動的なアダプタ要件が、汎用のクラウドネイティブインフラを設計し直す動機になることを示している。特に分散 KV キャッシュの大幅な効果は、プレフィル-デコード分離(prefill-decode disaggregation)など今後のアーキテクチャ変化に対しても外部キャッシュプールが有効であることを示唆する。
ByteDance の大規模運用経験を背景に持つ点で、このシステムは純粋な研究提案ではなく、実際の本番ワークロードで設計検証されたシステムとして評価できる。
## 強み / 弱点・課題
**強み**:
- 協調設計により、推論エンジンの内部実装に踏み込んだ最適化が可能
- 分散 KV キャッシュで既存手法を大きく上回る実測性能を達成
- vLLM プロジェクト傘下での開発により、広いユーザーコミュニティへのリーチを持つ
- 実際の大規模 ByteDance ワークロードで設計が検証されている
**弱点・課題**:
- ルーティング戦略の評価が非理想的ワークロード下での一般化に十分でない(論文自身が認める)
- プロファイリングベースの自動スケーリングとハイブリッド GPU スケジューリングはオフラインプロファイリングを前提とし、動的ワークロードには追加ステップが必要
- 実験の一部は特定のベンチマーク(Bird-SQL)や GPU 構成(A10/L20)に限定されており、他のハードウェアへの一般化は未検証
- roofline モデル解析(Imai ほか [2024])の活用による軽量プロファイリングは今後の課題として残る
---
Source: [[@2025__arXiv__AIBrix - Towards Scalable, Cost-Effective Large Language Model Inference Infrastructure]]