## Memo ## Memo with LLM ### 論文情報 - **論文のタイトル**: Hierarchical Prediction-based Management for LMaaS Systems - **著者と所属**: Zhihan Jiang, Yujie Huang, Guangba Yu, Junjie Huang, Jiazhen Gu, Michael R. Lyu - **カンファレンス/ジャーナル名**: arXiv (プレプリント) - **発表年**: 2025年 ### 論文概要 本論文では、OpenAIなどの大手企業が提供するLanguage-Model-as-a-Service(LMaaS)プラットフォームにおける効率的な管理問題を階層予測に基づくフレームワーク「PreServe」で解決することを提案している。PreServeは長期的なサービスワークロード予測と短期的な個別リクエスト負荷予測を組み合わせることで、リソース配分の事前調整とリクエストルーティングの最適化を実現している。 ### 詳細解説 #### 問題設定 LMaaSプラットフォームは日々数百万のクエリを処理し、サービング遅延を減らして[[SLO]](Service Level Objectives)を満たしながらリソース利用率を最適化する必要がある。**入力**は多様なユーザーリクエスト(プロンプト)で、**出力**は生成されたレスポンストークンである。**必要なデータ**はリクエストタイムスタンプ、プロンプトトークン数、レスポンストークン数、および過去のワークロード履歴である。従来のクラウドサービス管理手法では、LLMサービス特有の動的ワークロードと可変リクエスト負荷に対して最適化されていないという課題がある。 #### 提案手法 PreServeは階層予測に基づく管理フレームワークで、以下の2つの主要コンポーネントから構成される: **1. 階層予測システム** - **サービスワークロード予測器**: 過去のパターンから周期的なトークン密度を予測するためにmLSTM(multiplicative LSTM)を使用 - **リクエスト負荷予測器**: DistilBERTベースのモデルでプロンプト内容から個別リクエストのレスポンス長を予測 **2. 予測ベース管理システム** - **インスタンススケーラー**: 長期予測と短期予測を統合してリソース配分を事前調整 - **リクエストルーター**: 現在と予想される将来のインスタンス負荷を考慮してリクエストを動的に配信 具体的な数式として、リクエストルーターは以下を最小化するインスタンスを選択する: ``` i* = argmin_i (prefill_load_i + decode_load_i + memory_penalty_i) ``` ここで、memory_penalty_iは予想されるメモリ使用率に基づいて計算される。 #### 新規性 従来のアプローチと比較して、以下の点で新規性がある: 1. **階層予測アプローチ**: 従来の反応的スケーリングではなく、サービスレベルとリクエストレベルの両方での予測を組み合わせた初の試み 2. **LLM特有の特性への対応**: トークン生成の2段階プロセス(prefillとdecodeフェーズ)を考慮した専用設計 3. **予測ベースルーティング**: 従来のラウンドロビンや最小接続数ベースの手法ではなく、将来の負荷を予測したルーティング戦略 #### 実験設定 **使用データセット**: - Azure LLM inference trace 2024: 4410万リクエストを含むcodeサービスとchatサービスの1週間分のプロダクショントレース - ShareGPT: 90,000以上の実世界のLLM会話データ **評価指標**: - Time-to-First-Token (TTFT): リクエスト送信から最初のトークン受信までの時間 - 正規化遅延: E2E遅延をレスポンストークン数で正規化した値 - SLO達成率: 事前定義されたSLO閾値内で処理されたリクエストの割合 **実験環境**: LLaMA-2-7BとLLaMA-2-13Bモデルを使用し、vLLMフレームワーク上で実行 #### 実験結果 PreServeは最先端のベースライン手法と比較して以下の性能を達成した: 1. **ワークロード予測精度**: 平均絶対パーセンテージエラー(APE)でcodeサービス8.10%、chatサービス4.23%を達成し、第2位のProphetを70.4%および48.2%上回る 2. **インスタンススケーリング**: ピーク遅延を78.6%以上削減し、リソース消費を平均44.5%減少 3. **リクエストルーティング**: P99遅延を45.8%以上削減し、SLO違反を61.8%減少 4. **オーバーヘッド**: 全体のリクエスト遅延に対してわずか0.23%の追加オーバーヘッド 特に、LLaMA-2-7Bにおいて、QPS 10.5の条件下でPreServeは平均TTFTを7.6秒から2.2秒に(71.1%改善)、P99正規化遅延を1.1秒から0.45秒に(59.1%改善)短縮した。 ## Abstract 大規模言語モデル([[LLM]])は、自然言語処理やソフトウェアエンジニアリングなどの分野に革命をもたらし、OpenAIなどの業界リーダーがホストするLanguage-Model-as-a-Service(LMaaS)プラットフォームの成長を促進している。これらのプラットフォームは日々数百万のクエリを処理し、リソース利用率を最適化しながらサービング遅延を削減し、サービスレベル目標(SLO)を満たすための効率的な管理が必要である。しかしながら、従来のワークロード用に設計された従来のクラウドサービス管理技術は、動的なサービスワークロードと可変リクエスト負荷のため、LMaaSには最適化されていない。これに対処するため、我々は階層予測を中心とした専用LMaaS管理フレームワークPreServeを提案する。PreServeは、粗い粒度での周期的トークン密度を推定するサービスワークロード予測器と、個々のLLMリクエストのリソース需要を評価する新しいリクエスト負荷予測器を組み込み、各LLMインスタンスの負荷予測器の構築を可能にする。長期的および短期的予測を統合することで、PreServeはリソース配分を事前に調整し、インスタンスの不足供給または過剰供給のリスクを軽減する。さらに、PreServeは現在および予想される将来のインスタンス負荷の両方を考慮してリクエストルーティングを最適化し、インスタンス間のバランスの取れた負荷分散を確保する。実世界のLMaaSプロダクションデータセットでの評価により、PreServeは最先端のアプローチを上回り、テール遅延を45.8%以上削減し、リソース消費を平均44.5%減少させ、わずか0.23%の追加オーバーヘッドしか発生させないことが実証された。