2025__ArXiv__AIBrix - Towards Scalable, Cost-Effective Large Language Model Inference Infrastructure

## Memo ## Memo with LLM ### 論文情報 - **論文タイトル**: AIBrix: Towards Scalable, Cost-Effective Large Language Model Inference Infrastructure - **著者と所属**: The AIBrix Team (Jiaxin Shan他26名)。ByteDance、University of Michigan、University of Illinois Urbana-Champaign、University of Washington、Google、DaoCloud等の研究者による共同研究 - **カンファレンス/ジャーナル名**: arXiv preprint (2504.03648) - **発表年**: 2025年 ### 論文概要 AIBrixは、大規模言語モデル（LLM）のクラウド環境での展開を最適化・簡素化するために設計されたクラウドネイティブなオープンソースフレームワークである。従来のクラウドネイティブスタックとは異なり、AIBrixはvLLMのような推論エンジンとの完全な統合を目的とした共同設計哲学に従っている。 ### 詳細解説 #### 問題設定大規模言語モデルの推論インフラストラクチャにおける課題として、効率的な異種リソース管理、次世代分散アーキテクチャ、高密度デプロイメント、自動スケーリング、キャッシュ対応ルーティング、多クラスタ・多リージョンリソース最適化が挙げられる。入力は多様なLLMワークロードであり、出力はスケーラブルで費用効果の高い推論サービスである。 #### 提案手法 AIBrixは以下の主要コンポーネントを含む： **高密度[[LoRA]]管理**: 動的アダプター登録とリネージサポートによるLoRAアダプター管理の効率化。低トラフィックシナリオで4.7倍、高需要時でも1.5倍のコスト削減を実現。 **LLM特化オートスケーラー**: スライディングウィンドウメトリック集約などの最適化により、リアルタイムメトリクスの伝播遅延を削減。 **高度なLLMゲートウェイとルーティング戦略**: [[Envoy Gateway]]を拡張したLLM対応APIゲートウェイ。トークンパターン、プリフィルキャッシュの可用性、計算オーバーヘッドを分析してルーティング効率を向上。平均レイテンシを19.2%、P99レイテンシを79%削減。 **分散KVキャッシュ**: ノード間でのトークン再利用を促進し、スループットを50%向上、推論レイテンシを70%削減。 **ハイブリッドオーケストレーション**: Kubernetesによる粗粒度スケジューリングとRayによる細粒度実行を組み合わせた効率性と柔軟性のバランス。 #### 新規性従来のクラウドネイティブソリューション（KServe、KubeAI等）と比較して、AIBrixはvLLMとのより密接な統合を提供。システムレベルのオーケストレーション層に焦点を当てた共同設計アプローチが特徴的で、推論エンジンとインフラストラクチャ層の両方を最適化する包括的なアプローチを採用している。 #### 実験設定実世界のByteDanceでの大規模展開における検証。複数のビジネスユースケースでの実証実験を実施。使用データセットの詳細は論文に明記されていないが、実際のプロダクション環境での性能評価を重視している。 #### 実験結果 - 高密度LoRA管理により低トラフィック時に4.7倍、高需要時に1.5倍のコスト削減 - 分散KVキャッシュによりスループット50%向上、レイテンシ70%削減 - LLMゲートウェイにより平均レイテンシ19.2%削減、P99レイテンシ79%削減 - SLO駆動GPU最適化により異種サービングでのコスト効率最大化を実現 AIBrixはオープンソースプロジェクトとして公開され、vLLMプロジェクト組織下での協力的開発が進められている。 ## Abstract 我々は、クラウド環境における大規模LLM展開を最適化し、簡素化するために設計されたクラウドネイティブなオープンソースフレームワークであるAIBrixを紹介する。従来のクラウドネイティブスタックとは異なり、AIBrixは共同設計哲学に従い、[[vLLM]]のような推論エンジンとの完全な統合を目的としてインフラストラクチャの各層が専用構築されることを保証している。AIBrixは、動的アダプタースケジューリングのための高密度[[LoRA]]管理、LLM特化オートスケーラー、プレフィックス対応・負荷対応ルーティングを含む、推論コストを削減し性能を向上させる複数の重要な革新を導入している。効率性をさらに向上させるため、AIBrixはノード間でのトークン再利用を促進する分散[[KVキャッシュ]]を組み込み、スループットを50%向上させ、推論レイテンシを70%削減している。AIBrixはまた、ベンダーに依存しないエンジン互換性を維持しながらモデル管理を効率化する統合AI ランタイムをサポートしている。大規模マルチノード推論において、AIBrixは効率性と柔軟性のバランスを取るため、粗粒度スケジューリング用の[[Kubernetes]]と細粒度実行用のRayを活用するハイブリッドオーケストレーションを採用している。さらに、[[SLO]]駆動GPU最適化器がリソース配分を動的に調整し、サービス保証を維持しながら費用効率を最大化するため異種サービングを最適化している。最後に、AIBrixは自動障害検出とモックアップテストを可能にするAIアクセラレータ診断ツールによってシステム信頼性を向上させ、障害耐性を改善している。