2025__ArXiv__PipeBoost - Resilient Pipelined Architecture for Fast Serverless LLM Scaling

## Memo ## Memo with LLM ### 論文情報 - 論文のタイトル: PipeBoost: Resilient Pipelined Architecture for Fast Serverless LLM Scaling - 著者と所属: Chongpeng Liu (北京航空航天大学), Xiaojian Liao (北京航空航天大学), Hancheng Liu, Limin Xiao (北京航空航天大学), Jianxin Li (北京航空航天大学) - カンファレンス/ジャーナル名: arXiv (プレプリント) - 発表年: 2025年 ### 論文概要本論文は、マルチGPUサーバーレスクラスタ向けの低レイテンシ[[LLM]]推論システム「PipeBoost」を提案している。同一ベースモデルを共有する複数のLLMインスタンスの性質を活用し、モデルロードと推論の両段階で耐障害性パイプライン並列性を導入することで、先行システムと比較して推論レイテンシを31%-49.8%削減することを実現している。 ### 詳細解説 #### 問題設定 **入力**: バーストするリクエストパターンを持つLLM推論タスク、同一ベースモデルから派生した複数のLLMインスタンス（[[LoRA]]アダプター使用含む） **出力**: 低レイテンシでのFirst Token Time to First Token (TTFT)とスケーラブルなLLM推論サービス **必要なデータ**: ベースモデルパラメータ、LoRAアダプター（オプション）、マルチGPU環境でのPCIeバンドウィドス現在のサーバーレスLLMシステムは、各GPU上で独立にモデル全体をロードする必要があり、同一モデルパラメータの重複転送によってPCIeバンドウィドスが非効率に利用されているという問題がある。また、モデル全体がロードされるまで推論を開始できず、GPUの計算リソースが未活用になっている。 #### 提案手法 PipeBoostは以下の3つの主要技術で構成される： **1. Pipeline-Parallel Model Loading** - モデルチェックポイントをレイヤー単位で分割し、各GPUが異なる部分を並行してロード - 数式的には、N個のGPUでモデルMがN個のパーティションM₀, M₁, ..., Mₙ₋₁に分割され、GPU_iがM_iを最初にロード - PCIeバンドウィドスの集約利用により、重複データ転送を排除 **2. Pipeline-Parallel Model Inference** - ロードされたレイヤーが完全なモデルを構成した時点で即座に推論を開始 - Merged LoRAアプローチを採用し、ベースモデルにアダプターをマージして単一モデルとして動作 - Epoch-based adapter switchingにより、異なるLoRAアダプターへの切り替えオーバーヘッドを最小化 **3. Fault-Tolerant Recovery** - GPU障害時のModel layer reassignmentにより、残りのGPUでパイプラインを再構築 - KV cache reconstructionにより、障害後も推論を継続 #### 新規性既存システム（Transformers、ServerlessLLM）との主な相違点： - **Sequential vs Pipeline Loading**: 従来システムは各GPUで完全なモデルをシーケンシャルにロードするのに対し、PipeBoostはレイヤー並列ロードを実現 - **Resource Utilization**: PCIeバンドウィドスの集約利用により、データ転送効率を最大化 - **Early Inference Start**: モデル全体のロード完了を待たずに推論を開始可能特にベースモデル共有特性の活用が新規性の核心で、実環境でのLoRAベースモデルの普及とGPTクラスタでの同一モデル展開パターンに着目している。 #### 実験設定 **データセット**: GSM8K（多様な長さとドメインの実ユーザー質問を含む） **ハードウェア**: - 2×NVIDIA A100 40GB GPU、512GB DDR4メモリ、2TB NVMe SSD - 4×NVIDIA RTX 4090 24GB GPU（スケーラビリティテスト用） **モデル**: OPT-1.3B/2.7B/6.7B/13B、Mistral-7B、Falcon-7B **評価指標**: - Time to First Token (TTFT): リクエスト受信から最初のトークン生成までの時間 - Recovery Time: 障害発生からサービス復旧までの時間 - Request Completion Latency: リクエスト完了までの総時間 #### 実験結果 **ベースモデル性能**: - TTFTにおいて、[[Transformers]]に対し57%-84%、[[ServerlessLLM]]に対し30%-47%の削減を達成 - OPT-1.3Bでは1秒以内でのFirst Token生成を実現（モデルロード0.64秒） **LoRAサポート**: - LoRAアダプター追加によるオーバーヘッドは0.87%（Mistral-7B）～0.56%（OPT-13B）と最小限 - Epoch-based switchingにより、25 RPSでの平均レイテンシを63.1%削減 **スケーラビリティ**: - GPU数増加に伴いTTFTが継続的に改善（4GPU構成で35.5%削減） - バッチサイズやプロンプト長の増加に対しても優位性を維持 **耐障害性**: - Pipeline-Parallel Recoveryにより復旧時間を51%短縮 - Model loading段階での障害では50.5%のレイテンシ削減を達成論文中では具体的な数値として、Mistral-7Bの場合、ServerlessLLMの5.2秒に対しPipeBoostは3.6秒でTTFTを達成（31%改善）と報告されている。 ## Abstract 本論文では、マルチGPU（サーバーレス）クラスタ向けの低レイテンシLLM推論システムである「PipeBoost」を提案する。PipeBoostは、GPUを事前に過剰プロビジョニングすることなく、バーストするリクエストに応答して推論サービスを迅速に起動できる。多くのLLM推論タスクは同一のベースモデル（例：LoRA）に依存している。これを活用するため、PipeBoostはモデルロードと推論の両段階にわたって耐障害性パイプライン並列性を導入する。このアプローチは、GPU間での集約PCIeバンドウィドスと並列計算を最大化し、最初のトークンのより高速な生成を可能にする。PipeBoostはまた、複数GPUの共有利点を活用して中断のない推論サービスを可能にする復旧技術も導入する。実験結果によると、最先端の低レイテンシLLM推論システムと比較して、PipeBoostは推論レイテンシを31%から49.8%削減する。特定のモデル（例：OPT-1.3B）に対しては、PipeBoostは数百マイクロ秒の範囲でコールドスタートレイテンシを達成する。