# vLLM
LLM 推論で標準的地位を確立しつつあるオープンソースの推論フレームワーク。ページドアテンション(Paged Attention)による KV キャッシュのメモリ効率化を特徴とし、OpenAI API 互換のサーバーを提供する。([[@2025__さくらのナレッジ__分散推論基盤やその前提の考え方]])
`vllm bench serve` などのベンチマークツールも同梱されており、推論サービングの性能評価にも広く用いられる。
Miao+ のサーベイ([[@2025__ACM Computing Surveys__Towards Efficient Generative Large Language Model Serving]])では、スループット特化の代表システムとして位置づけられている。ページドアテンションにより KV キャッシュのメモリ断片化を抑制し、高いメモリ利用効率とスループットを達成する。一方でレイテンシ特化のシステム(例: FlexFlow-Serve の投機的復号)とは設計上の方向性が異なり、レイテンシとスループットの双対性を体現する一例でもある。
Kimi k1.5 の RL インフラストラクチャでは、[[Megatron-LM]] と vLLM を同一 Pod 内の Kubernetes Sidecar コンテナに配置し、訓練と推論のハイブリッドデプロイメントを実現している。[[Mooncake]] 経由の RDMA で重みを転送し、切り替えは訓練→推論が 1 分未満([[@2025__arXiv__Kimi K1.5 - Scaling Reinforcement Learning with LLMs]])。
## 関連
- 概念: [[LLM推論]]
- 本ソース: [[@2025__さくらのナレッジ__分散推論基盤やその前提の考え方]]
- サーベイ: [[@2025__ACM Computing Surveys__Towards Efficient Generative Large Language Model Serving]]
- RL インフラ: [[@2025__arXiv__Kimi K1.5 - Scaling Reinforcement Learning with LLMs]]