2025__arXiv__Tempo - Application-aware LLM Serving with Mixed SLO Requirements

## Memo ## Memo with LLM ### 論文情報 - 論文のタイトル: "Tempo: Application-aware LLM Serving with Mixed SLO Requirements" - 著者と所属: Wei Zhang および他5名の著者（具体的な所属は明記されていないが、分散システムおよび大規模言語モデル分野の研究者） - カンファレンス/ジャーナル名: arXiv プレプリント - 発表年: 2025年（2025年4月24日投稿） ### 論文概要本論文は、多様なService Level Objective（[[SLO]]）要件を持つ大規模言語モデル（[[LLM]]）ワークロードに対して、サービスゲインを最大化するSLO対応スケジューラ「Tempo」を提案している。Tempoは、レイテンシ重視、スループット重視、集合的リクエストという3つの異なるLLMリクエストパターンを効率的に処理し、最大8.3倍のサービスゲイン向上と10.3倍のSLOグッドプット向上を実現している。 ### 詳細解説 #### 問題設定 LLMアプリケーションの多様化により、以下3つの異なるSLO要件を持つリクエストパターンが存在する： 1. **レイテンシ重視型リクエスト**: チャットボットなどでのストリーミング配信において、TTFT（Time to First Token）やTBT（Time Between Tokens）を重視 2. **スループット重視型リクエスト**: クラウド[[AIOps]]（[[2024__arXiv__Building AI Agents for Autonomous Clouds - Challenges and Design Principles|Shetty+, arXiv2024]]）やバッチ処理APIにおいて、TTLT（Time to Last Token）による完全応答の迅速な生成を重視 3. **集合的リクエスト**: マルチエージェントシステムや複雑推論タスクにおいて、DAG（有向非循環グラフ）形式の実行依存関係を持つ複数LLM呼び出しによる協調処理入力データには、リクエストの応答長や実行時依存関係などの不確実な情報が含まれ、これが既存スケジューラの性能を制限している。 #### 提案手法 Tempoは以下3つの主要コンポーネントから構成される： **1. Request Analyzer（リクエスト解析器）** - Quantile Regression Forest（QRF）を用いた応答長上限予測：従来の[[BERT]]ベース予測器と比較して7倍高速でより正確な上限推定を実現 - 依存関係グラフマッチング：集合的リクエストのDAG構造を履歴データと照合し、ステージ別時間配分を予測 **2. SLO-aware Scheduler（SLO対応スケジューラ）** - Largest Service Density First（LSDF）アルゴリズム：予想サービスゲインと残り時間予算の比率でリクエストを優先順位付け - 保守的初期推定からオンライン精密化：生成進行に伴い予測を動的に調整 **3. SLO Tracker（SLO追跡器）** - リアルタイム性能メトリクス監視（TTFT、TBT等） - 動的な要求情報更新トリガー機能数式例として、スループット重視型リクエストのサービス密度は以下で計算される： ``` Service Density = (w_input × L_input + w_output × L_output_estimated × degradation_factor) / estimated_remaining_time ``` #### 新規性従来のスケジューラは特定のワークロード向けに設計されていたが、Tempoは以下の点で新規性を持つ： - **ハイブリッド設計**: 完全情報を仮定するスケジューラと情報を全く仮定しないスケジューラの中間に位置し、不正確だが活用可能な情報を利用 - **サービスゲイン概念**: 従来のSLOグッドプット（二進的指標）に対し、SLO違反の程度を考慮した連続的な評価指標を導入 - **統合的アプローチ**: 3つの異なるリクエストパターンを単一フレームワークで効率的に処理 #### 実験設定 **データセット**: - Alpaca（50k リクエスト） - LMSys-chat（1M 対話ターン） - lighteval-math（12.5k 数学問題） - ToT数学推論、エージェント的コード生成ワークロード **評価モデル**: - Llama-3.1-8B/70B - Qwen2.5-14B **ベースライン**: - vLLM：標準的なFCFSスケジューリング - Sarathi-Serve：チャンク化プリフィルによるレイテンシ最適化 - Autellix：集合的ワークロードでのPLASスケジューリング **評価指標**: - サービスゲイン：重み付きトークン数とSLO違反による減衰を考慮 - SLOグッドプット：SLOを満たすリクエストのスループット - 従来メトリクス：TTFT、TBT、TTLT #### 実験結果 **メイン結果**: - サービスゲイン：1.3～8.3倍の向上 - SLOグッドプット：4.0～10.3倍の向上 - システムスループット：Sarathi-Serveの96-98%を維持（オーバーヘッド最小限） **詳細分析**: - レイテンシ重視型：TTFTで優秀な性能、TBTも良好 - スループット重視型・集合的：中央値TTLTで良好、P95テール遅延も改善 - ロード増加時の堅牢性：高負荷でも一貫した性能維持 **アブレーション研究**: - グラフマッチング除去：グッドプットで顕著な低下 - 予測モデル除去：同様にグッドプット低下 - オラクル情報との比較：オラクル性能に近い結果 **感度分析**: - ペナルティ係数：広範囲でベースライン超越 - SLO制約緩和：安定したバランス維持 - ワークロード構成：多様な構成比率で一貫した優位性不明な点として、著者の詳細な所属機関や、大規模デプロイメントでのスケーラビリティの具体的な限界については論文中で詳細な言及がない。 ## Abstract 大規模言語モデル（LLM）の多様なアプリケーションへの統合により、インタラクティブなチャットボットやクラウドAIOpsからインテリジェントエージェントまでの範囲で、応答性に関する幅広いサービスレベル目標（SLO）が導入されている。これらのワークロードには、ストリーミングチャットにおけるトークン単位のレイテンシに焦点を当てたレイテンシ重視のリクエスト、ツールを呼び出すための迅速な完全応答を必要とするスループット重視のリクエスト、および自己反省やエージェントベース推論から生じる動的依存関係を持つ集合的リクエストが含まれる。このワークロードの多様性は、応答長やランタイム依存関係などの予測不可能なリクエスト情報によって増幅され、既存のスケジューラを設計範囲内であっても不適切なものにしている。本論文では、サービスゲインをリクエスト完了によって提供される有用なサービスとして定義する。SLOがリクエストの実際の性能ニーズを直接反映するため、SLO（例：デッドライン）よりもはるかに高速にリクエストを完了しても、限られた追加のサービスゲインしか得られないことを観察している。この洞察に基づき、多様なLLMワークロード全体でサービスゲインを最大化するよう設計された最初の体系的なSLO対応スケジューラであるTempoを導入する。Tempoは各SLOを満たすのに十分なサービング帯域幅のみを割り当て、他のベストエフォート型ワークロードのための残余容量を最大化する。リクエスト情報を仮定するか全く仮定しないかの代わりに、ハイブリッドスケジューリング戦略を採用する：保守的な初期推定のための分位点ベースの応答上限と依存関係グラフマッチングを使用し、サービスゲイン密度によってリクエストを優先順位付けし、生成の進行に応じてオンラインで決定を精密化する。チャット、推論、エージェント的パイプラインを含む多様なワークロードでの評価により、Tempoが最先端の設計と比較して最大8.3倍のエンドツーエンドサービスゲイン向上と最大10.3倍のSLOグッドプットを達成することが示されている。