DistServe - yuuk1's Digital Garden

# DistServe DistServe は [[Peking University]]、[[UC San Diego]]、[[StepFun]] の研究者が OSDI 2024 で発表した LLM サービングシステムである。Prefill と Decode を別 GPU に分離し、TTFT と TPOT の SLO を同時に満たす per-GPU Goodput を最大化する。(Source: [[@2024__OSDI__DistServe - Disaggregating Prefill and Decoding for Goodput-optimized Large Language Model Serving]]) 主な設計は、段階別の GPU 割当、テンソル並列/パイプライン並列探索、クラスタ帯域を考慮した配置、プル型 KV キャッシュ転送である。評価では vLLM・DeepSpeed-MII と比べ、最大 7.4 倍高いリクエスト率または最大 12.6 倍厳しい SLO を満たした。 ## 関連 - ソース: [[@2024__OSDI__DistServe - Disaggregating Prefill and Decoding for Goodput-optimized Large Language Model Serving]] - 概念: [[LLM推論]] / [[Prefill-Decode分離]] / [[サービスレベル目標]] - 著者: [[Yinmin Zhong]] / [[Shengyu Liu]] / [[Junda Chen]] / [[Jianbo Hu]] / [[Yibo Zhu]] / [[Xuanzhe Liu]] / [[Xin Jin]] / [[Hao Zhang]]