2025__ACCESS__Make Large Language Models Efficient - A Review

## Memo ## Memo with LLM ### 論文情報 - **タイトル**: Make Large Language Models Efficient: A Review - **著者と所属**: - Aman Mussa (Al-Farabi Kazakh National University, Kazakhstan) - Zhanseit Tuimebayev (Al-Farabi Kazakh National University, Kazakhstan) - Madina Mansurova (Al-Farabi Kazakh National University, Kazakhstan) - **カンファレンス/ジャーナル名**: IEEE ACCESS (Volume 13) - **発表年**: 2025年 - **DOI**: 10.1109/ACCESS.2025.3605110 ### 論文概要本論文は、大規模言語モデル(LLM)の効率性を向上させるための最新技術を包括的にレビューしたものである。パラメータ中心、アーキテクチャ中心、学習中心、データ中心の4つのカテゴリに分類し、モデル圧縮、事前学習、ファインチューニング、推論、データ準備という5つのライフサイクル段階における具体的な最適化手法を詳述している。これらの手法を適切に適用することで、モデルの品質を損なうことなく計算オーバーヘッドを50-95%削減できることを示している。 ### 詳細解説 #### 問題設定 **入力**: 大規模言語モデル(数十億~数千億パラメータ)の開発・展開プロセス全体 **出力**: 各段階における効率化技術の体系的な分類と推奨事項 **必要なデータ**: - 既存のLLM効率化技術に関する学術文献 - ベンチマークデータセット(MMLU、HumanEval、GSM8k、Math、BBH、GPQAなど) - 各種モデル(GPT、LLaMA、DeepSeek、Claude、Gemini等)の性能指標論文では、小規模・中規模組織が直面する深刻なスケーラビリティの問題、すなわち、最先端LLMの膨大なメモリ・計算要件に対処するための技術的解決策を提供することを目的としている。 #### 提案手法論文は効率化技術を**4つの主要パラダイム**と**5つのライフサイクル段階**で整理している: ##### 1. モデル圧縮(Model Compression) 事前学習後のモデルサイズと計算コストを削減する技術: **量子化(Quantization)**: - **ポストトレーニング量子化(PTQ)**: 学習済みモデルの重みを32ビットから8ビット以下の整数に変換 - **量子化認識学習(QAT)**: 学習中に低精度演算をシミュレートし、精度劣化を最小化 - 具体例: LLM.int8()はGPT-3規模のモデルで67億パラメータ以上の場合に推論コストを大幅削減。QuIPは2ビット量子化を実現し、GPTQを超える性能を示した。 **プルーニング(Pruning)**: - **構造化プルーニング**: レイヤー、ニューロン、アテンションヘッド全体を削除。SIMPLEはBARTのサイズを67%削減し、CPUで6.96倍の高速化を実現。 - **非構造化プルーニング**: 個々の重みを削除。SparseGPTは再学習なしで50-60%のスパース性を達成。 **低ランク近似(Low-Rank Approximation)**: - 重み行列をより小さな2つの行列の積に分解。SoftLMsは最大50%のパラメータ削減と1.33-1.72倍の高速化を達成。 **知識蒸留(Knowledge Distillation)**: - **ホワイトボックス蒸留**: 教師モデルの内部状態にアクセス可能。MINILLMは従来の手法より5-10%高いROUGE-Lスコアを達成。 - **ブラックボックス蒸留**: APIアクセスのみ。Lion-13BはChatGPTに匹敵する生成能力を獲得し、Vicuna-13Bを55.4%上回った。 ##### 2. 効率的事前学習(Efficient Pre-Training) **混合精度学習(Mixed Precision Training)**: - FP16/BF16で演算を実行しつつFP32の重みコピーを保持。メモリ削減と2-6倍の高速化を実現。 - FP8-LMは75%の学習高速化と39%のメモリ削減を達成(GPT-175B)。 **モデルスケーリング**: - **プログレッシブスタッキング**: 浅いモデルから深いモデルへ段階的に成長。BERT学習時間を25%短縮。 - **Chinchilla則**: モデルサイズとトークン数を同時にスケール。Chinchilla(70B)はGopher(280B)と同じ計算量で7%以上の精度向上。 - **µTransfer**: 小規模モデル(40M)で超パラメータ調整を行い、6.7B GPT-3の結果を7%のコストで再現。 **重み初期化**: - **Fixup初期化**: 正規化層なしで深い残差ネットワークの学習を可能に。ResNet-50でテストエラーが7%改善。 - **ReZero**: スカラーゲートパラメータαをゼロ初期化し、120層Transformerの効率的学習を実現。 **効率的オプティマイザ**: - **LAMB**: レイヤーごとの正規化により極大バッチサイズ(32,768)で安定学習。BERTの学習時間を81時間から76分に短縮。 - **Adan**: Nesterovモーメンタムを適応最適化に統合。ResNet-34(CIFAR-10)で最高精度を達成。 - **Lion**: 符号ベースの更新でモーメンタムのみ追跡。ImageNetで88.3%のゼロショット精度(2%改善)。 ##### 3. 効率的ファインチューニング(Efficient Fine-Tuning) **パラメータ効率的ファインチューニング(PEFT)**: **[[LoRA]](Low-Rank Adaptation)**: - 元の重み行列Wを凍結し、低ランク行列A∈R^(m×r)とB∈R^(r×n)を追加: W ← W + A·B - LoRA-FAはメモリ使用量を完全ファインチューニングの0.5倍、LoRAの0.7倍に削減。 - Laplace-LoRAはLLaMA2-7Bの常識推論タスクでキャリブレーションを大幅改善。 - ALoRAは動的にランクを調整し、LLaMA2-7Bで3つのGLUEタスクと4つのQAタスクでLoRA等を上回る性能。 **アダプターチューニング**: - Transformerレイヤー間に軽量モジュールを挿入。GLUEベンチマークで完全ファインチューニングの0.4%以内の精度を、わずか3%のパラメータで達成。 - Compacterは超複素アダプターと低ランク最適化により、タスク固有パラメータをモデル全体の0.047%に削減。 - LLAMA Adapter V2は0.04%(約14M)のパラメータのみ更新し、ChatGPTを超えGPT-4に近い性能を達成。 **プレフィックスチューニング(Prefix Tuning)**: - 連続的なタスク固有ベクトル(プレフィックス)を最適化。約0.1%のパラメータ更新で完全ファインチューニングに匹敵。 - Selective Prefix Tuning(SPT)はBERT-largeでSuperGLUE/NERタスクにおいて標準プレフィックスチューニングより1.8%精度向上。 - Adaptive Prefix Tuning(APT)はゲート機構により各レイヤーでプレフィックスの長さと重みを動的調整。 **プロンプトチューニング(Prompt Tuning)**: - 学習可能なソフトトークンを入力に追加。T5-XXL(11B)でマルチタスクモデルチューニングに匹敵する性能を、20,000分の1以下のタスク固有パラメータで達成。 - P-Tuning v2は中間層にも連続プロンプトを挿入。0.1-3%のパラメータで完全ファインチューニングに匹敵。 - Prompt Tuning with Rules(PTR)は複雑な多クラス分類を単純なサブタスクに分解。TACRED/TACREV/ReTACREDでF1スコア72.4/81.4/90.9を達成。 **メモリ効率的ファインチューニング(MEFT)**: **QLoRA**: - 事前学習済みモデルを4ビットに量子化し、低ランクアダプターを通じて勾配を逆伝播。 - 4ビットNormalFloat(NF4)、二重量子化、ページドオプティマイザを使用。 - Guanaco-65BはChatGPTレベルの99.3%の性能を24時間・単一GPUで達成。GPU メモリ要件を780GBから48GB未満に削減。 **GaLoRe(Gradient Low-Rank Projection)**: - 重みではなく勾配自体を低ランク部分空間に射影。 - オプティマイザメモリを最大65.5%、総学習メモリを63.3%削減。 - LLaMA 7Bの事前学習を単一RTX 4090(24GB VRAM)で実現。 **WeLoRe(Weight Low-Rank Projection)**: - 重み行列の特異値分布に基づきレイヤーごとにランクを選択的削減。 - 完全ファインチューニングより3倍高スループット、0.6倍低GPU メモリ。 - 50%圧縮LLaMA-2 7BがWeLoReで完全ファインチューニングを上回る性能を35%のパラメータで達成。 ##### 4. 効率的推論(Efficient Inference) **データレベル最適化**: **入力圧縮**: - DYNAICL: タスク複雑度と計算予算に基づき最適なコンテキスト例数を動的予測。一様割り当てと比較して最大46%のトークン削減。 - RECOMP: 検索文書を圧縮してから入力に追加。抽出的圧縮と抽象的圧縮を組み合わせ、WikiText-103でトークン使用量を6-25%に削減。 **Retrieval-Augmented Generation(RAG)**: - Self-RAG: 適応的検索と自己反省により、いつ・何を検索するかを動的決定。PubHealthで74.5%の精度(Llama2-FTの64.3%から向上)。 **モデルレベル最適化**: **Deja Vu**: - 入力ごとに冗長なアテンションヘッドとMLPニューロンを動的無効化。 - 先読み予測器で入力固有のスパース性パターンを予測。 - OPT-175Bで2倍以上の高速化、最大85%の構造的スパース性を達成。 **Star Attention**: - ブロックスパースアテンション機構で自己アテンションの二次複雑度を緩和。 - 入力を独立したローカルブロックに分割し、アンカーブロックで大域的一貫性を維持。 - RULER/BABILongベンチマークで95-100%の精度を維持しつつ、最大11倍の推論高速化。1Mトークンまでスケール。 **SparseInfer**: - ReLU活性化モデルで学習不要のアクティベーションスパース性予測器。 - 入力と重みの符号ビット比較でアクティベーションスパース性を近似。 - Llama2-13B/7BでPowerInferより21%高速、精度劣化は1%以内。 **システムレベル最適化**: **H2O(Heavy-Hitter Oracle)**: - 適応的KVキャッシュ削除戦略。アテンションスコアに最も寄与するトークンのみ保持。 - LLaMA-2/Falcon/Mistralでメモリ使用量を最大4倍削減、1.8倍高速化。精度劣化は1%未満。 **Batch Prompting**: - 単一APIコールで複数クエリを同時処理。インコンテキスト例とテストクエリをバッチ化。 - GPT-3.5/GPT-4で10の多様なタスクにおいて最大5倍のコスト削減。 **SparQ Attention**: - アテンションスコアをクエリとキー成分のサブセットで近似し、高スコアのKVペアのみ選択的取得。 - LLaMA-2/3、Mistral、Gemma、Pythiaでデータ転送を最大8倍削減、95-100%の精度維持。 **Hydragen**: - 共有プレフィックスシナリオ向けハードウェア認識アテンション機構。 - フルシーケンスアテンションをプレフィックスアテンション(共有)とサフィックスアテンション(個別)に分解。 - CodeLlama-13BでvLLMベースラインより最大32倍のスループット向上。プレフィックスが1Kから16Kトークンに増加してもほぼ劣化なし。 **InstInfer**: - Computational Storage Drives(CSD)へのインストレージアテンションオフロード。 - P2P DMA伝送でPCIe帯域幅制限を緩和。 - FlexGenと比較して13Bモデルで最大11.1倍のスループット向上、KVキャッシュ移行オーバーヘッドを94%削減。 **UELLM**: - 統合的で効率的なLLM推論サービングフレームワーク。 - リソースプロファイラ、バッチスケジューラ、LLMデプロイヤの3つのコンポーネントを統合。 - Morphling/S3と比較して推論レイテンシを72.3-90.3%削減、GPU利用率を1.2-4.1倍向上、スループットを1.92-4.98倍向上。 ##### 5. 効率的データ準備(Efficient Data Preparation) **事前学習段階**: **Online Data Mixing(ODM)**: - データミックスの割合を動的調整し情報利得を最大化。 - 多腕バンディット(MAB)問題として定式化。 - The Pileデータセットでの最終検証パープレキシティをDoReMiより19%速く達成、5ショットMMLU精度を1.9%改善。 **ASK-LLM and DENSITY Sampling**: - ASK-LLM: 指示調整済みモデルを品質評価器として使用し高価値サンプルをフィルタリング。 - DENSITY Sampling: カーネル密度推定で多様なサンプルセットを選択。 - わずか10%のデータでフルデータセット学習を上回る性能、70%速い収束。 **Multi-Agent Collaborative Data Selection**: - 品質エージェント、ドメインエージェント、トピックエージェントが独立してデータをスコアリング。 - 影響関数でデータポイントのモデル性能への影響を推定。 - 事前学習効率を最大10.5%改善、2倍のデータセットで学習したモデルと比較して収束加速。 **ファインチューニング段階**: **Data-Efficient FineTuning(DEFT)**: - クロスタスク最近傍検索戦略。 - 事前学習済みエンコーダで意味的に関連する例をマルチタスクデータから検索。 - T0-3Bを超え、14のホールドアウトタスクのうち12タスクで3-30%の精度向上。データ使用量はわずか2-5%。 **InsCL(Instruction Continual Learning)**: - Wasserstein距離駆動のタスク認識リプレイ機構。 - Instruction Information Metric(InsInfo)で戦略的に多様で困難な指示を優先。 - 16のNLPタスクでランダムリプレイより3.0%向上、リプレイなしベースラインより27.96%向上。以前学習した知識の90%以上を保持。 **LIMA**: - わずか1,000の慎重に選別されたアラインメントサンプルで65B LLaMAをファインチューニング。 - GPT-4出力に対して43%の選好率を達成。データ量より品質を優先する原則を実証。 **Pre-instruction-tuning(PIT)**: - 複雑なテキストの継続事前学習前にQAペアにモデルを露出。 - 「パープレキシティの呪い」に対処(生テキストのパープレキシティ最小化がQAタスク性能向上に寄与しない問題)。 - Llama-2 7B/70BでそれぞれQAタスクにおいて17.8%/16.3%の性能向上。 **Chain-of-Instructions(CoI)**: - 複雑なタスクを一連のサブタスクに分解。各サブタスクの出力が次の入力に。 - 2命令タスクでROUGE-Lスコア70.76を達成(ベースライン24.93から大幅向上)。 - 人間評価者が70%以上の比較でCoI調整出力を支持。 **Selective Reflection-Tuning**: - 教師-生徒ループで指示-応答ペアを精緻化。 - Instruction-Following Difficulty(IFD)メトリックに基づき生徒モデルが改訂を選択的受容。 - わずか926の選択的リサイクルサンプル(データセットの約2%)でWizardLM 7BがLIMAを上回る性能。人間評価で57%以上の勝率。 **LESS(Low-rank gradiEnt Similarity Search)**: - 勾配類似性測定によりデータ選択を最適化。 - 最も影響力のあるサンプルサブセットのみで指示チューニング。 - わずか5%の学習データでフルデータファインチューニングを上回り、MMLU/TYDIQA/BBHで最大5ポイントの向上。 #### 新規性本論文の主な新規性は以下の点にある: 1. **新人開発者向けの実践的な体系化**: 従来のサーベイ論文がパラメータ中心・アーキテクチャ中心・データ中心・学習中心の4つの一般的カテゴリに分類していたのに対し、本論文はこれらをLLMのライフサイクル(モデル圧縮、事前学習、ファインチューニング、推論、データ準備)の5つの具体的段階にマッピングした。これにより、開発者が自身のボトルネックに応じて最適化手法を選択しやすくなっている。 2. **各手法の詳細なトレードオフ分析**: 例えば、LoRAは追加パラメータが1%未満でランタイムオーバーヘッドがなく、異なるアダプターセットを単一フォワードパスでバッチ処理できない一方、アダプターチューニングは非線形性や異種レイヤータイプを必要とするタスクに適しているなど、各手法の利点と欠点を明確に示している。 3. **最新技術の統合**: 2025年までの最新研究を包括的にカバーし、DeepSeek-V3/R1、QLoRA、GaLoRe、Self-RAG、Hydragenなど、最先端の効率化技術を詳細に解説している。 4. **ハードウェア制約との関連付け**: 例えば、FP8混合精度はHopper世代GPU(NVIDIA)に限定される、INTベースの量子化はカスタムカーネル実装に依存するなど、各手法のハードウェア要件を明示している。 5. **スケール依存の最適化戦略**: 100B+パラメータモデルではオプティマイザステートオフロードとアクティベーション再計算が最大のメモリ削減を提供する一方、10-70Bモデルでは混合精度学習とLoRAファインチューニングが最適なスループット-VRAM使用量トレードオフを提供するなど、モデルサイズに応じた推奨事項を提示している。 #### 実験設定本論文はサーベイ論文であるため、独自の実験は実施していない。代わりに、以下の主要ベンチマークを用いた既存研究の結果を体系的にレビューしている: **評価ベンチマーク**: - **MMLU** (Massive Multitask Language Understanding): 多様な科目にわたる知識と推論能力を評価 - **HumanEval**: コード生成能力を評価 - **GSM8k**: 数学の文章題解決能力を評価 - **Math**: 高度な数学問題解決能力を評価 - **BBH** (BIG-Bench Hard): 複雑な推論タスクを評価 - **GPQA**: 大学院レベルの質問応答能力を評価 - **GLUE/SuperGLUE**: 自然言語理解タスクの総合評価 - **ROUGE-L**: 要約品質を評価 - **BLEU/CIDEr**: 機械翻訳・画像キャプショニング品質を評価 **対象モデル**: - GPTシリーズ(GPT-3, GPT-3.5, GPT-4, GPT-4o, GPT-o1) - DeepSeekシリーズ(V2, V3, R1) - LLaMAシリーズ(LLaMA, LLaMA 2, LLaMA 3.1) - Claudeシリーズ(1.1, 2, 3 Haiku, 3 Opus, 3.5 Sonnet) - Geminiシリーズ(1 Pro, 1 Ultra, 1.5 Pro, 2) - Qwenシリーズ(1, 2, 2.5) - Mistralシリーズ(7B, 8x7B, 8x22B, Large 2) - その他(Yi, Falcon) #### 実験結果論文では、レビューした各技術の定量的な性能改善を報告している。主要な結果を以下に示す: **モデル圧縮**: - **量子化**: INT8量子化でBERT/GPT-3の効率を最大5.19倍/4.16倍改善。W4A8とKV4は13B+パラメータモデルでメモリフットプリントを最大4倍削減、推論を30-50%高速化。QuIPの2ビット量子化はGPTQを超える性能。EfficientQATは70Bモデルを2ビットで単一GPU上41時間でQAT完了、メモリ使用量34GB、精度劣化3%未満。 - **プルーニング**: SIMPLEはBARTを67%削減しCPUで6.96倍高速化。ZipLMはDistilGPT2より60%小型・30%高速でMiniLM/TinyBERTを精度で上回る。LLM-PrunerはLLaMA-7Bを20%圧縮し3時間で元性能の94.97%を保持。Sheared-LLaMAはLLaMA2-7Bをスクラッチ学習の3%の計算量で圧縮。SparseGPTは175Bモデルで50-60%のスパース性を達成。SparseLLMは既存手法と比べパープレキシティを最大80%削減。 - **低ランク近似**: SoftLMsは50%のパラメータ削減と1.33-1.72倍の高速化。LORCはGPUメモリ使用量を40-60%削減。ARSは静的低ランク手法より4-5%の性能向上。LoRA-Sparseは自己アテンション計算を最大50%削減し精度を3-5%向上。 - **知識蒸留**: MINILLMは従来手法より5-10%高いROUGE-Lスコア。ULDは抽出的QAと要約で4-8%改善。AdaDSはDistilBERTの99.9%の性能を計算コスト90%削減で達成。Lion-13BはChatGPTに匹敵しVicuna-13Bを55.4%上回る。DLLM2Recは従来の軽量モデルを平均47.97%改善。PGKDで調整したモデルは推論がLLMより最大130倍高速・25倍低コスト。DDKはQwen-1.5 14B(平均77.36)をQwen-1.5 1.8B(平均60.36)に蒸留し、パラメータ13%で教師の78%の性能。 **効率的事前学習**: - **混合精度**: FP16学習でメモリ削減と2-6倍高速化。FP8-LMは75%の学習高速化と39%のメモリ削減(GPT-175B)。LMPTはTesla V100で最大3.74倍高速化。FP8構成は勾配オーバーフロー/アンダーフローを緩和。 - **スケーリング**: プログレッシブスタッキングはBERT学習時間を25%短縮。µTransferは40Mモデルで超パラメータ調整し6.7B GPT-3の結果を7%のコストで再現。Chinchilla(70B)はGopher(280B)と同じ計算量で7%以上の精度向上(MMLU 67.5%)。NanoLMは52Bモデルの損失予測を事前学習の約14%のコストで実現。GStackは194Bトークンで収束し54.6%高速化。 - **重み初期化**: Mixupは様々なデータセット(CIFAR-10、CIFAR-100、Google Commands、UCI)でERMを3-40%上回る。FixupはResNet-50でBatchNormより7%のテストエラー改善。ReZeroは120層Transformerの効率的学習を実現、12層Transformerで56%速い収束。クラス認識初期化はエポック0で25%の次トークン予測精度(ランダム初期化は5%)。 - **オプティマイザ**: LAMBはバッチサイズ32,768でBERT学習を81時間から76分に短縮。AdanはResNet-34(CIFAR-10)でTop-1精度最高。LionはImageNetで88.3%ゼロショット・91.1%ファインチューニング精度(それぞれ2%・0.1%改善)。Sophiaは大規模言語モデル事前学習でAdamWより2倍速い収束。 **効率的ファインチューニング**: - **LoRA**: LoRA-FAはメモリを完全ファインチューニングの0.5倍、LoRAの0.7倍に削減。Laplace-LoRAはLLaMA2-7Bで大幅なキャリブレーション改善。LoRETTAはLLaMA2-7Bで訓練可能パラメータをLoRAの100分の1に削減。ALoRAはLLaMA2-7Bで3つのGLUEタスクと4つのQAタスクでLoRA/AdaLoRA/SoRA/SaLoRAを上回る。OLoRAはLoRAより約2倍速い学習。 - **アダプター**: CompacterはGLUE/SuperGLUEでパラメータ0.047%で完全ファインチューニングに匹敵/超越。LLAMA AdapterはLLaMA-13BでChatGPT-3.5 Turbo(77)を上回る平均推論スコア81.5。LLAMA Adapter V2は0.04%(約14M)のパラメータでGPT-4に近い性能。KG Adapterは28Mパラメータで完全ファインチューニングを上回る。Search-AdaptorはBEIR14データセットとMIRACL多言語データセットでnDCG@10を最大5%改善。Sparse Adapterは Natural QuestionsでEM 0.413、SQuADでEM 0.290を完全ファインチューニングの10%のパラメータで達成。 - **プレフィックスチューニング**: 標準プレフィックスチューニングは約0.1%のパラメータで完全ファインチューニングに匹敵。SPTはBERT-largeでSuperGLUE/NERにおいて標準より最大1.8%精度向上。APTは16ショット実験で最大4.2%高精度。NTK AttentionはCIFAR-100/Food-101/Tiny-ImageNetでFFTより7.40%/5.81%/13.26%精度向上。 - **プロンプトチューニング**: プロンプトチューニングはT5-XXL(11B)でマルチタスクモデルチューニングに匹敵する性能を20,000分の1以下のパラメータで達成。P-Tuning v2は0.1-3%のパラメータで完全ファインチューニングに匹敵(330M-10Bパラメータ)。PTRはTACRED/TACREV/ReTACREDでF1スコア72.4/81.4/90.9。MPTはSuperGLUEでバニラプロンプトチューニングより16.3%向上(パラメータ予算0.035%)。DePTはベースタスクで1.31-3.17%、新タスクで0.71-2.23%の平均精度向上(調和平均最大2.11%改善)。 - **MEFT**: QLoRAのGuanaco-65BはVicunaベンチマークでChatGPTレベルの99.3%の性能を24時間・単一GPUで達成。GPU メモリ要件を780GB未満から48GB未満に削減。QA-LoRAは2ビット量子化でMMLA/Commonsense QAタスクにおいて最大15%の性能向上。GaLoReはオプティマイザメモリを最大65.5%、総学習メモリを63.3%削減。LLaMA 7B事前学習を単一RTX 4090(24GB)で実現。LoDa(+)はE2E NLG Challenge/DARTデータセットで完全ファインチューニングの2%のパラメータでLoRAよりBLEU/ROUGE-L/CIDErが高い。WeLoReは50%圧縮LLaMA-2 7Bで完全ファインチューニングを超え、訓練可能パラメータは35%のみ。OwLoreはLLaMA2/3/MistralでLoRAベースより常識推論で1.1%、MMLUで3%、MT-Benchで10%向上。LLaMA2-7Bをわずか21GBのGPU メモリでファインチューニング。 **効率的推論**: - **データレベル**: DYNAICLは一様割り当てと比較して最大46%のトークン削減。RECOMPはWikiText-103でトークン使用量を6-25%に削減、Natural Questions/TriviaQA/HotpotQAで文書を元の5-10%に圧縮(性能低下最大10%)。Self-RAGはPubHealthで精度64.3%(Llama2-FT)から74.5%に向上、PopQAで検索サポート精度46.1%から55.8%に向上。 - **モデルレベル**: Deja VuはOPT-175Bで2倍以上の高速化、最大85%の構造的スパース性。Star AttentionはRULER/BABILongで95-100%の精度を維持しつつ最大11倍高速化、1Mトークンまでスケール。SparseInferはLlama2-13B/7BでPowerInferより21%高速、精度劣化1%以内。LazyLLMはLongBenchでLLaMA 2-7Bのプリフィル段階を最大2.34倍高速化、精度98-100%維持。効率的LLM推論(CPU)はLLaMA-2/GPT-NeoX/Falcon-7Bでトークン生成レイテンシを最大1.6倍改善。 - **システムレベル**: H2OはLLaMA-2/Falcon/MistralでメモリマイRAMを最大4倍削減、1.8倍高速化、精度劣化1%未満(RAG/文書要約)。Batch PromptingはGPT-3.5/GPT-4で10の多様なタスクにおいて最大5倍のコスト削減。SparQ AttentionはLLaMA-2/3/Mistral/Gemma/Pythiaでデータ転送を最大8倍削減、95-100%の精度維持。HydragenはCodeLlama-13BでvLLMベースラインより最大32倍のスループット向上、プレフィックス1K-16Kトークンでほぼ劣化なし。階層的プロンプト共有で競技プログラミングタスクの推論レイテンシを55%削減。InstInferはFlexGenと比較して13Bモデルで最大11.1倍のスループット向上、KVキャッシュ移行オーバーヘッド94%削減。UELLMはMorphling/S3と比較して推論レイテンシを72.3-90.3%削減、GPU利用率を1.2-4.1倍向上、スループットを1.92-4.98倍向上。 **効率的データ準備**: - **事前学習**: ODMはThe PileデータセットでDoReMiの最終検証パープレキシティを19%速く達成、5ショットMMLU精度を1.9%改善。ASK-LLMはわずか10%のデータでフルデータセット学習を上回る性能、70%速い収束、33%のオーバースケーリング優位性。DENSITY Samplingは多様な例セット選択でカーネル密度推定を使用。MEGALODONは学習損失1.70(LLaMA2-7Bの1.75と比較)、2Mトークンシーケンスまでスケール。Multi-Agent Collaborativeは事前学習効率を最大10.5%改善、2倍のデータセットサイズ学習モデルと比較して収束加速。PreparedLLMはMMLU/GeoBenchスコアをそれぞれ10.6%/18.8%改善、必要学習データを30%削減。 - **ファインチューニング**: DEFTはT0-3Bを超え、14のホールドアウトタスクのうち12タスクで3-30%の精度向上、データ使用量2-5%のみ。InsCLは16のNLPタスクでランダムリプレイより3.0%向上、リプレイなしベースラインより27.96%向上、以前学習した知識の90%以上を保持。LIMAは1,000のアラインメントサンプルでGPT-4出力に対して43%の選好率。PITはLlama-2 7B/70BでQAタスクにおいて17.8%/16.3%の性能向上。CoIは2命令タスクでROUGE-Lスコア70.76(ベースライン24.93)、人間評価で70%以上の支持。Selective Reflection-Tuningは926サンプル(約2%)でWizardLM 7BがLIMAを上回る性能、人間評価で57%以上の勝率。GRITLMはテキスト生成と埋め込み学習の両方に優れる。LESSはわずか5%の学習データでMMLA/TYDIQA/BBHにおいて最大5ポイントの向上。これらの結果は、効率化技術を適切に適用することで、LLMの計算オーバーヘッドを大幅に削減しつつ、モデルの性能を維持または向上できることを示している。 ## Abstract 大規模言語モデル([[LLM]])は、様々な自然言語処理タスクにおいて顕著な成功を収めており、より大規模なアーキテクチャはしばしば優れた性能を示す。このスケーリング動作は、ますます洗練されたLLMを開発するために1兆ドルを超える投資が見込まれる生成AI分野における激しい競争を促進してきた。この競争は、[[DeepSeek]]のような新しいオープンソースモデルを生み出す活気あるエコシステムを育成し、アプリケーション開発者が実世界の展開のために最先端のLLMを活用する動機付けとなっている。しかし、大規模モデルの広範なメモリと計算要件は、中小規模組織にとって深刻な障害となり、重大なスケーラビリティの懸念につながっている。本論文は、パラメータ中心、アーキテクチャ中心、学習中心、データ中心の4つのカテゴリを通じてLLM効率を改善するための最新技術の包括的なレビューを提供する。新人の視点をより良く理解するため、LLMを開発・展開する際のライフサイクル全体をカバーしている。したがって、本論文は5つのコアタスクを中心に構成されている:ローカル展開のためのモデル圧縮、学習時間短縮のための事前学習の高速化、カスタムデータでの効率的なファインチューニング、リソース制約下での最適化された推論、および合理化されたデータ準備。広範な戦略に焦点を当てるのではなく、開発の各段階に合わせた専門的な技術を強調している。各フェーズで的を絞った最適化を適用することにより、モデルの品質を損なうことなく計算オーバーヘッドを50-95%削減でき、限られた計算リソースを持つ研究者や実践者がLLMをより利用しやすくすることができる。