# 推論基盤のパフォーマンス検証と最適化戦略 [[道下幹也]]による SpeakerDeck 資料である。第 3 回 vLLM roundup Community Meetup Tokyo の登壇資料として公開され、当日利用しなかった補足資料も追加されている。主題は、[[LLM推論]]基盤を「ユーザー体験」から逆算して最適化する考え方と、[[高火力 PHY]] 上の実測に基づく PD Disaggregation と KV Cache Reuse/Sharing の評価である。(Source: [[.raw/slides/performance_verification_and_optimization_strategy_for_inference/pages]]) ## 概要 本資料は、推論で高スペック GPU が必要か不要かという一般論を退け、ビジネスモデル、サービス規模、ユーザー体験、SLO/SLA の定義によってインフラ要求が大きく変わると整理する。前半では TTFT・ITL・E2EL・RPS・TPS・Goodput をユーザー体験とシステム性能の接続指標として置き、後半では PD 分離と KV Cache Reuse/Sharing を、実測とコスト感覚に基づいて選択すべき技術として検証する。(Source: [[.raw/slides/performance_verification_and_optimization_strategy_for_inference/pages]]) ## 主要メッセージ - 推論基盤の最適化では、まずユーザー体験を反映する SLO/SLA を定義し、継続計測に基づいて GPU 増減、Aggregated から PD Disaggregation への構成変更、Prefill/Decode のリソースバランス調整、KV Cache Storage 導入を判断する。(p.6-8, Source: [[.raw/slides/performance_verification_and_optimization_strategy_for_inference/pages]]) - 正しい最適化には、どの指標を改善するか、選択できる技術の改善幅はどれだけか、追加コストに妥当性があるかを同時に見る必要がある。AI システムではアプリケーション、フレームワーク、通信ライブラリ、サーバー構成、ネットワークまで含めた全体最適が不可欠である。(p.9, Source: [[.raw/slides/performance_verification_and_optimization_strategy_for_inference/pages]]) - PD Disaggregation は GPU 合計枚数を Aggregated と同じ 4 枚に揃えた比較でも、入力 8k・出力 1k・32 同時接続時の ITL テイルレイテンシを大きく改善する。SLO に ITL テイルを含め、長い入力が継続的に発生する環境では、サーバー 1 台規模でも PD 分離が望ましい。(p.12-14, Source: [[.raw/slides/performance_verification_and_optimization_strategy_for_inference/pages]]) - KV Cache Reuse/Sharing は、8k 入力のうち前方一致するキャッシュヒット量を増やすほど TTFT を改善する。0 ヒットでは TTFT が 350 ms 超だが、1k/2k/4k/8k とヒット量を上げることで最大 1.75 倍程度の削減が観測される。(p.17-20, Source: [[.raw/slides/performance_verification_and_optimization_strategy_for_inference/pages]]) - KV Cache Reuse はワークロード規模にかかわらず有効だが、ストレージコストと高速ネットワークコストを負うため、コストメリットを出すには一定以上のユーザーワークロードを受け入れる環境が望ましい。RAG やユーザー定義プロンプトでは Prefix の前方一致性が崩れやすく、CacheBlend のような技術が補助になる。(p.20, p.34, Source: [[.raw/slides/performance_verification_and_optimization_strategy_for_inference/pages]]) ## 視覚的に重要な図表 **p.6 SLO/SLA ベースの最適化ループ** ![[_attachments/performance_verification_and_optimization_strategy_for_inference/page-006.png]] ユーザー体験を定義し、SLO/SLA 遵守と低コストの両立を継続的に狙うループとして推論基盤最適化を捉えている。 **p.12 PD Disaggregation 検証構成** ![[_attachments/performance_verification_and_optimization_strategy_for_inference/page-012.png]] Aggregated は 4 GPU を同一 vLLM に割り当て、Disaggregated は Prefill 2 GPU・Decode 2 GPU に分け、LMCache による KV Cache 転送とプロキシを用いる。 **p.13 ITL 実測結果** ![[_attachments/performance_verification_and_optimization_strategy_for_inference/page-013.png]] 入力 8k・出力 1k・4 GPU の条件で、Aggregated は並列度上昇により達成可能なテイルレイテンシが落ち、PD 分離は全体レイテンシがやや悪化しつつテイルを維持する。 **p.19 KV Cache Reuse/Sharing の TTFT 実測** ![[_attachments/performance_verification_and_optimization_strategy_for_inference/page-019.png]] Mooncake Store を使った KV Cache Reuse/Sharing では、8k 入力中のキャッシュヒット量が増えるほど平均 TTFT が下がる。 **p.33 KV Cache 読み込みコスト** ![[_attachments/performance_verification_and_optimization_strategy_for_inference/page-033.png]] ほぼ全てキャッシュヒットする 8k ケースでも、KV Cache 読み込み時間が TTFT の約 1/4 を占める点を要調査事項としている。 ## 概念・実体への接続 - [[LLM推論]]: Prefill/Decode の段階差、TTFT/ITL/Goodput、PD 分離、KV Cache Reuse/Sharing の実測が直接追加される。 - [[サービスレベル目標]]: LLM 推論の SLO は可用性だけでなく TTFT・ITL・Goodput・コストを含むユーザー体験モデルとして設計される。 - [[道下幹也]] / [[SAKURA Internet]] / [[高火力 PHY]]: 高火力 PHY のインフラ設計・構築・性能調査を担当する実務者による継続的な分散推論基盤検証である。 - [[vLLM]] / [[LMCache]] / [[Mooncake]] / [[NIXL]]: vLLM ベースの推論、LMCache による KV Cache 転送、Mooncake Store によるリモート KV Cache Reuse/Sharing の検証に使われる。 ## 限界・不確実点 - transcript なし。SpeakerDeck の公開ページと PDF 抽出テキストは確認したが、口頭説明や質疑は取得していない。 - p.13・p.31 の CDF グラフは凡例とテキストから主要結論を確認したが、各並列度の厳密なパーセンタイル値は画像上で読み取れる範囲に限られる。 - p.33 の「完全ヒット近傍でも KV Cache 読み込みが TTFT の約 1/4」という観察は、資料自体が要調査事項として扱っているため、原因は未確定である。 - p.34 の CacheBlend は解決候補として示されるが、本資料内では検証されていない。