# AIBrix
AIBrix は Kubernetes 上で大規模 LLM 推論基盤を分離型に運用するための包括的なクラウドネイティブフレームワークである。GPU クラスタ全体を「分離資源プール」として扱い、[[Kubernetes]] の粒度の粗い管理と [[Ray]] の細粒度高性能タスク制御を組み合わせるハイブリッド設計を取る。推論エンジン([[vLLM]]・[[SGLang]] 等)との協調設計を基本哲学とし、LLM 固有のオートスケーリング・分散 KV キャッシュ・LoRA 管理・SLO 駆動 GPU 最適化を統合する。(Source: [[@2025__arXiv__AIBrix - Towards Scalable, Cost-Effective Large Language Model Inference Infrastructure]])
## 主要コンポーネント
### 制御プレーン
- **Model Adapter (LoRA) Controller**: LoRA アダプタの動的ロード/アンロード。Kubernetes の Service/EndpointSlice で adapter 単位の発見と配置。マルチ LoRA を 1 pod に多重化してメモリ削減。
- **LLM-Specific Autoscaler**: KV cache 利用率など LLM 固有メトリクスで second-level スケーリング。異種 GPU を混在可。
- **GPU Optimizer**: ワークロードと GPU プロファイルから最も費用対効果の高い GPU mix を選定。古い・安価な GPU の活用で SLO 達成下のコスト削減。
- **Unified AI Runtime**: vendor-neutral sidecar。vLLM、SGLang、NVIDIA Dynamo などをプラガブルに収容し、ベンダーロックインを回避。
- **Cold Start Manager**: モデルとアダプタの事前ロードでサーバレス的環境の cold start を緩和。
- **Accelerator Diagnose Tools**: GPU 利用率・温度・メモリ・エラーのテレメトリ収集と診断テスト。
### データプレーン
- **Request Router**: prefix-cache aware かつ load-aware の LLM-aware API gateway。公平性ポリシー、レート制限、隔離。
- **Distributed KV Cache**: ノード/エンジン横断 KV キャッシュ共有のためのファブリック。scan-resistant eviction で長コンテキスト/高再利用ワークロードの性能を改善。
## 性能特性
- 分散 KV cache 最適化で**50% 高スループット**、**70% 低推論レイテンシ**。
- 低トラフィック条件で**4.7× コスト削減**(LoRA Llama-13B、異種クラスタ、AWS EKS + T4 GPU)。
## アーキタイプ
[[@2025__arXiv__From Attention to Disaggregation - Tracing the Evolution of LLM Inference]] は AIBrix を「cloud-native production-ready」アーキタイプとして整理し、[[DistServe]](research-first)、[[NVIDIA Dynamo]](full-stack hardware co-design)と並列に置く。Istio、Prometheus、AWS EKS などのクラウドエコシステムへの統合を前提とする。
## 関連
- ソース: [[@2025__arXiv__AIBrix - Towards Scalable, Cost-Effective Large Language Model Inference Infrastructure]](一次論文)/ [[@2025__arXiv__From Attention to Disaggregation - Tracing the Evolution of LLM Inference]]
- 概念: [[Prefill-Decode分離]] / [[KVキャッシュ管理]] / [[LLM推論]]
- 基盤: [[Kubernetes]] / [[Ray]]
- 関連製品: [[DistServe]] / [[NVIDIA Dynamo]] / [[vLLM]] / [[SGLang]]
- 公式論文: https://arxiv.org/abs/2504.03648