## Memo
- [[2024__arXiv__One Queue Is All You Need - Resolving Head-of-Line Blocking in Large Language]]と同一論文?
## Abstract
大規模言語モデル([[LLM]])の出現は、クラウドプロバイダーにとって過大な計算要求とユニークな実行パターン(すなわち、自己回帰パターンによる非決定的な実行時間)を導入している。その結果、既存のLLMサービングシステムでは、リクエストキューが長くなり、リクエストサービングのサービスレベル目標([[SLO]])を実施することができません。これは、高レベルのSLOを、リクエストの立ち退きやGPUとCPUの状態スワップなどの低レベルのLLMサービングオペレーション(LSO)に変換する効果的な方法がまだ存在しないからです。QLMは、ヘテロジニアスデバイス上で高いスループットと利用率を達成しながら、SLOの実施を最大化する、マルチモデルLLMサービング用の初のキュー管理システムです。QLMは、(1)説明可能なベイズ統計的アプローチにより、待ち行列に入るリクエストの非決定性を処理し、(2)確率計画ソルバーにより、リクエストをデバイス(モデルインスタンス)に並べ替え、割り当てる。リクエストキューの実行順序は、下流のLLMサービングシステムで有効なLSOに自動的に変換される。QLMは、リクエストプル、リクエストエビクション、GPU-CPU状態スワッピング、モデルウォームスタート、オートスケーリングの5つの基本的なLSOをサポートしており、さらに拡張することも可能です。異機種デバイスとモデルタイプにおけるQLMの評価では、スループットを最大20%向上させながら、優先度の高いリクエストのキューイング時間を最大100~1000分の1に短縮し、その結果、最先端のモデルサービングシステムと比較してSLO実施率を最大830%向上させることができました。QLMは、大手クラウドプロバイダーによる本番稼動に移行しています。