@2024__TMLR__Efficient Large Language Models - A Survey

> [!abstract] 概要 > 大規模言語モデル(LLM)は自然言語理解や言語生成などの重要なタスクで顕著な能力を示しており、社会に大きな影響を与える可能性がある。しかし、その能力には相当な計算資源を必要とするという代償があり、効率性の課題に取り組む有効な技術の開発が強く求められている。本サーベイでは、効率的 LLM 研究の体系的かつ包括的なレビューを提供する。文献をモデル中心・データ中心・フレームワーク中心の 3 つの主要カテゴリからなるタクソノミーに整理し、それぞれ異なるが相互に関連する効率的 LLM のトピックを網羅する。 ## 論文情報 - **タイトル**: Efficient Large Language Models: A Survey - **著者**: Zhongwei Wan, Xin Wang, Che Liu, Samiul Alam, Yu Zheng, Jiachen Liu, Zhongnan Qu, Shen Yan, Yi Zhu, Quanlu Zhang, [[Mosharaf Chowdhury]], [[Mi Zhang]] - **所属**: [[The Ohio State University]]（筆頭）、Imperial College London、Michigan State University、University of Michigan、Amazon AWS AI、Google Research、Microsoft Research Asia、Boson AI - **媒体**: Transactions on Machine Learning Research (TMLR) - **発表年**: 2024-05-23（arXiv 初版 2023-12-06） - **arXiv ID**: 2312.03863v4 - **OpenReview**: https://openreview.net/forum?id=bsCCJHbO8A - **コードリポジトリ**: https://github.com/AIoT-MLSys-Lab/Efficient-LLMs-Survey ## 概要 LLM の効率化技術を**モデル中心・データ中心・フレームワーク中心**の 3 軸タクソノミーで体系的に整理したサーベイ論文である。モデル圧縮・効率的事前学習・効率的ファインチューニング・効率的推論・効率的アーキテクチャ設計に加え、データ選択・プロンプト工学、さらに 17 のフレームワークの機能比較を網羅する。 ## 問題設定 LLM はパラメータ数が数十億〜数兆規模に達し、学習に百万 GPU 時間級のコストを要する（Table 1: LLaMA-2-70B で 71,680 GPU 日）。推論もスループットとレイテンシのトレードオフを抱え、規模拡大が困難である。入力は LLM の学習・ファインチューニング・推論の全段階、出力はコスト・速度・メモリ・エネルギーの各次元での効率改善技術の体系的整理である。 ## 提案手法 ### モデル中心手法（§2） #### モデル圧縮（§2.1） 4 つの直交するカテゴリに分類される。 - **量子化（Quantization）**: 高精度データ型を低精度に変換する。 - *学習後量子化（PTQ）*: 重み限定（GPTQ は 3–4 ビットまで圧縮し 175B パラメータを約 4 GPU 時間で処理、AWQ は顕著な重みを高精度で保持）と重み-活性化同時（SmoothQuant はチャネルごとスケーリング変換で活性化の量子化困難を重みに転嫁し 530B パラメータまで 8 ビットロスレス量子化を達成）に分かれる。活性化の外れ値処理が共通の主課題。 - *量子化対応学習（QAT）*: BitNet は 1 ビット LLM の QAT を開拓し、FP16 ベースラインに対して競合性能でメモリ・エネルギーを大幅削減。ただし QAT は完全学習データを要し PTQ より高コスト。 - **パラメータプルーニング**: 構造化（LLM-Pruner、Sheared LLaMA は LLaMA2-7B を 1.3B まで圧縮）と非構造化（SparseGPT は OPT-135B で 60% スパース化、Wanda は二次情報不要で競合性能）。 - **低ランク近似**: 重み行列を U·V^⊤ に分解。SVD-LLM は打ち切り対応データホワイトニングで特異値と圧縮損失を直結させる。 - **知識蒸留**: ホワイトボックス KD（MiniLLM は逆 KLD を政策勾配で最小化）とブラックボックス KD（連鎖思考蒸留: Fine-tune-CoT、Distilling Step-by-Step はラベル数を大幅削減）。 #### 効率的事前学習（§2.2） - **混合精度学習**: AMP（FP32 マスターコピー+FP16 演算）、BFLOAT16（FP16 のダイナミックレンジ不足を解消）。 - **スケーリングモデル**: 小モデルの重みから大モデルを初期化して収束を高速化（bert2BERT、LiGO は 30% 計算コスト節約、Mango は 59.9% 高速化）。 - **学習オプティマイザ**: Lion（符号モメンタムのみでメモリ効率化）、Sophia（軽量二次オプティマイザ、Adam の 2 倍の事前学習速度）。 - **システムレベル最適化**: ZeRO（3 段の状態分割: オプティマイザ状態→勾配→モデルパラメータ）、FSDP、ZeRO-Offload/Infinity（CPU/NVMe へのオフロード）、Perseus（エネルギー消費を最大 30% 削減）。 #### 効率的ファインチューニング（§2.3） - **パラメータ効率的ファインチューニング（PEFT）**: - *LoRA*: 重み変化の低「内在ランク」仮説に基づき、低ランク行列 A·B のみを更新。LoRA-FA（射影ダウン固定）、LongLoRA（長コンテキスト拡張）、AdaLoRA（SVD による適応的ランク配分）。 - *アダプタベース*: ボトルネック型モジュールを注入（LLM-Adapters、Compacter、(IA)³）。 - *プレフィックスチューニング*: 各層に学習可能なプレフィックストークンを追加（LLaMA-Adapter）。 - *プロンプトチューニング*: 入力層のみにプロンプトトークンを挿入（P-Tuning v2）。 - **メモリ効率的ファインチューニング（MEFT）**: QLoRA（4 ビット NormalFloat 量子化+LoRA）、LOMO（勾配計算と更新を一段で行い O(1) メモリ）、MeZO（ゼロ次法、2 回のフォワードパスで 30B を単一 A100 でファインチューニング可能）。 #### 効率的推論（§2.4） - **アルゴリズムレベル**: - *投機的復号（Speculative Decoding）*: 小型ドラフトモデルで並列にトークン候補を生成し、大型モデルで検証。棄却サンプリングにより元モデルの出力分布を保存する。SpecInfer（トークン木検証）、Medusa（追加ヘッド+木構造注意）、BiLD（フォールバック+ロールバック方策）。 - *KV キャッシュ最適化*: 圧縮系（KIVI: チューニング不要 2 ビット量子化でピークメモリ 2.6 倍削減、KVQuant: 3 ビット）と退避系（H₂O: 動的劣モジュラ問題としての退避、StreamingLLM: アテンションシンク現象+スライディングウィンドウで無限系列長を一定メモリで実現）。 - **システムレベル**: FlexGen（GPU+CPU+ディスクの線形計画探索）、Orca（反復レベルスケジューリングで FasterTransformer 比 36.9 倍スループット）、vLLM（PagedAttention で KV キャッシュの非連続メモリ管理、FasterTransformer/Orca 比 2–4 倍スループット）、Flash-Decoding（キー/バリューの並列分割注意計算）。 #### 効率的アーキテクチャ設計（§2.5） - **効率的注意**: 共有ベース（MQA/GQA）、カーネル化/低ランク（Performer、Linformer）、固定パターン（Longformer、Sparse Transformer、Lightning Attention-2）、学習可能パターン（HyperAttention: sortLSH で FlashAttention を長コンテキストで大幅に高速化）、ハードウェア支援（FlashAttention: HBM→SRAM 間通信を最小化）。 - **MoE**: GShard、Switch Transformer（2,048 エキスパートまで 1 兆パラメータ拡張）、Mixtral 8x7B（46.7B 総パラメータ、推論時 12.9B 使用で LLaMA-2 70B を凌駕、6 倍高速推論）。システムレベルでは FasterMoE（1.37–17.87 倍高速化）、MegaBlocks（ドロップレス MoE でブロックスパース演算）。 - **長コンテキスト LLM**: 位置外挿/内挿（ALiBi、RoPE-PI、YaRN）、リカレント構造（Transformer-XL、Mamba: 選択機構で不要データを除去し Transformer の 5 倍スループット）、セグメント/スライディングウィンドウ（Mistral、StreamingLLM）、メモリ検索増強（Memorizing Transformer、Unlimiformer）。 - **Transformer 代替**: 状態空間モデル（S4、Mamba）、RWKV（RNN+Transformer の長所を統合）、Hyena（準二次注意代替）。 ### データ中心手法（§3） - **データ選択**: 事前学習向け（DSIR: 重要度リサンプリング、DoReMi: 分布シフト対応）、ファインチューニング向け（AlpaGasus: 52K 中 9K の高品質データで全データ以上の性能、5.7 倍高速化、LIMA: 少量の選択例で GPT-4 に 43% 匹敵）。 - **プロンプト工学**: フューショットプロンプティング（デモンストレーション選択と順序付け）、プロンプト圧縮（Gisting: 最大 26 倍圧縮で FLOPS 40% 削減、LongLLMLingua: 4 倍圧縮で 17.1% 性能向上）、プロンプト生成（AutoPrompt、Self-Instruct）。 - **多段推論**: CoT、Auto-CoT、Tree-of-Thought、Graph of Thoughts（ToT 比品質 62% 向上・コスト 31% 削減）、Skeleton-of-Thought（並列化で生成を高速化）。 ### フレームワーク（§4）学習+推論対応 8 種（DeepSpeed、Megatron、Colossal-AI、Nanotron、MegaBlocks、FairScale、Pax、Composer）と推論特化 9 種（OpenLLM、LLM Foundry、vLLM、TensorRT-LLM、TGI、RayLLM、MLC LLM、Sax、Mosec）を Table 2 で機能比較。主要な差異は並列化戦略（3D 対データ/テンソル）、量子化対応（GPTQ/AWQ/SmoothQuant）、連続バッチング/PagedAttention の有無。 **Figure 20: 図** ![[_attachments/arxiv-2312.03863/fig20-figure.png]] (Figure 20. Illustrations of prompt compression (a) and prompt generation (b) for LLMs を示す。) **Figure 1: モデル構成** ![[_attachments/arxiv-2312.03863/fig1-model.png]] (Figure 1. Illustration of model performance and model training time in GPU hours of LLaMA models at dif- ferent scales. The report に関するモデル構成を示す。) **Figure 2: モデル構成** ![[_attachments/arxiv-2312.03863/fig2-model.png]] (Figure 2. Performance score vs. inference throughput for various LLMs. The throughputs are measured on Nvidia A100 80GB GPU に関するモデル構成を示す。) **Figure 3: モデル構成** ![[_attachments/arxiv-2312.03863/fig3-model.png]] (Figure 3. Taxonomy of efficient large language models (LLMs) literature に関するモデル構成を示す。) **Figure 4: モデル構成** ![[_attachments/arxiv-2312.03863/fig4-model.png]] (Figure 4. Summary of model compression techniques for LLMs に関するモデル構成を示す。) ## 新規性既存サーベイ（Zhao+ 2023、Tay+ 2022 等）が LLM 全般または効率的 Transformer を対象とするのに対し、本サーベイは**数十億パラメータ以上のモデルに特化した効率化技術**に焦点を絞る。モデル中心（圧縮・学習・推論・アーキテクチャ）、データ中心（データ選択・プロンプト工学）、フレームワークの 3 軸を統合的に整理し、GitHub リポジトリで継続的にメンテナンスする点に新規性がある。 ## 実験設定サーベイ論文のため独自実験は無い。各手法の性能はそれぞれの原論文から引用。比較の主軸は: - **モデル圧縮**: 圧縮率対精度（パープレキシティ・ベンチマークスコア） - **事前学習**: GPU 時間・エネルギー消費対性能 - **推論**: スループット（トークン/秒）対レイテンシ、メモリフットプリント - 代表的ハードウェア: NVIDIA A100 80GB GPU ## 実験結果サーベイであり単一の定量結果は無いが、各セクションで引用される主要数値: - GPTQ: GPT-175B を約 4 GPU 時間で 3–4 ビット量子化（精度劣化最小） - SmoothQuant: 530B パラメータまでロスレス INT8 量子化 - LiGO: bert2BERT 比約 30% 計算コスト節約 - QLoRA: 完全ファインチューニングと同等性能でメモリを大幅削減 - MeZO: 30B パラメータモデルを単一 A100 80GB でファインチューニング - Orca: FasterTransformer 比 36.9 倍スループット - vLLM: PagedAttention で FasterTransformer/Orca 比 2–4 倍スループット - Mixtral 8x7B: LLaMA-2 70B を MMLU/MBPP/GSM-8K で凌駕、6 倍高速推論 - Mamba: Transformer の 5 倍スループット - GoT: ToT 比品質 62% 向上・コスト 31% 削減 ## 考察モデル圧縮の 4 手法（量子化・プルーニング・低ランク近似・知識蒸留）は直交的であり組み合わせ可能だが、PTQ の重み-活性化同時量子化では活性化外れ値の処理が依然として主課題である。PEFT の主流は LoRA 系であり低ランク仮説の実効性が広く検証されている一方、圧縮後モデルに PEFT を適用する複合最適化（CEPT、QLoRA）が新たな方向として浮上している。推論はアルゴリズムレベル（投機的復号、KV キャッシュ）とシステムレベル（連続バッチング、PagedAttention）の二重最適化が効いており、両者の統合が現在進行形のフロンティアである。フレームワーク群は学習と推論で分化が進み、推論特化フレームワーク（vLLM、TensorRT-LLM 等）の台頭が著しい。 ## 強み - 3 軸タクソノミーによりモデル中心・データ中心・フレームワークの全体像を俯瞰できる - 67 ページ・400 以上の参考文献を網羅する包括性 - GitHub リポジトリで継続的に更新される点 - 各手法の図解（Figure 3–20）が直感的で分類の見通しがよい - Table 2 のフレームワーク比較は実務的に有用 ## 弱点・課題 - サーベイであり独自の実験的検証や新手法の提案は含まない - 2024 年 5 月時点のスナップショットであり、以降の急速な進展（Mamba-2、DeepSeek-V2/V3 の MoE 進化等）は未反映 - フレームワーク比較が機能一覧に留まり、定量的ベンチマーク比較は行われていない - エッジ/オンデバイス推論の扱いが薄い（MLC LLM のみ） - 同じカテゴリ内の手法間のトレードオフ比較（例: LoRA vs アダプタ vs プロンプトチューニングの精度-コスト曲線）が体系的に行われていない