# モデル圧縮 ## 定義 モデル圧縮(Model Compression)は、LLM のモデルサイズと計算量を削減しつつ性能を維持する技術群の総称である。量子化(Quantization)、パラメータプルーニング(Parameter Pruning)、低ランク近似(Low-Rank Approximation)、知識蒸留(Knowledge Distillation)の 4 カテゴリに大別され、これらは直交的で組み合わせが可能である。LLM の再学習コストが極めて高いため、大半の圧縮手法は事後学習(Post-Training)設定で適用される。([[@2024__TMLR__Efficient Large Language Models - A Survey]]) 圧縮の動機は明確である——LLaMA-2 70B は FP16 で約 140 GB の GPU メモリを要し、単一 GPU でのデプロイが不可能になる。圧縮により単一カード搭載やエッジデバイスへの展開が可能となる。 ## 主要手法 ### 量子化(Quantization) 重みや活性化の数値精度を下げてメモリ使用量と演算コストを削減する手法。4 カテゴリ中最も活発に研究されており、事後学習量子化(PTQ)と量子化対応学習(QAT)に大別される。 - **PTQ(事後学習量子化)**: 再学習不要で適用可能。重み専用量子化と重み-活性化同時量子化の 2 系統がある。 - 重み専用: GPTQ は 175B パラメータモデルを約 4 GPU 時間で 3〜4 ビットに量子化する。AWQ は顕著な重み(salient weight)を保護する。QuIP はインコヒーレンス処理により 2 ビット量子化を実現する。 - 重み-活性化同時: SmoothQuant はチャネル単位のスケーリングで活性化の外れ値を平滑化し、530B パラメータまでロスレスの 8 ビット量子化を達成する。QLLM は適応的チャネル再構成で外れ値チャネルを分解する。 - **活性化の外れ値**が PTQ の共通課題であり、チャネル単位変換(SmoothQuant)、外れ値隣接値の枝刈り(OliVe)、チャネルグループ化(RPTQ)など多方向からの攻略が進む。 - **QAT(量子化対応学習)**: BitNet が 1 ビット LLM を開拓した。PTQ より精度面で有利だが、再学習コストが高く大規模モデルへの適用障壁が大きい。 ### パラメータプルーニング(Parameter Pruning) 不要なパラメータを除去してモデルを小型化する手法。構造化プルーニングと非構造化プルーニングがある。 - **構造化プルーニング**: LLM-Pruner は勾配ベースで結合構造を一括除去する。Sheared LLaMA は LLaMA2-7B を 1.3B まで圧縮した実例がある。 - **非構造化プルーニング**: SparseGPT は OPT-135B で 60% のスパース性を達成する。Wanda は二次情報を必要とせず軽量に適用できる。 ### 低ランク近似(Low-Rank Approximation) 重み行列を低ランク行列の積に分解して圧縮する手法。SVD-LLM は切断対応ホワイトニングで精度劣化を抑制する。TensorGPT はテンソルトレイン分解(TTD)で埋め込み層を圧縮する。FWSVD や ASVD は Fisher 情報量や活性化を考慮した SVD の改良である。 ### 知識蒸留(Knowledge Distillation) 大規模な教師モデルの知識を小規模な生徒モデルに転写する手法。ホワイトボックスとブラックボックスに分かれる。 - **ホワイトボックス蒸留**: 教師モデルの内部表現(ロジット・中間層)にアクセスできる前提。MiniLLM は逆 KL ダイバージェンスを方策勾配で最適化する。GKD は一般化された知識蒸留の枠組みを提供する。 - **ブラックボックス蒸留**: 教師の内部状態にアクセスせず API 出力のみを利用する。思考連鎖(CoT)蒸留が代表的で、Distilling Step-by-Step、Fine-tune-CoT、SOCRATIC CoT がある。Lion は敵対的サイクルで蒸留する。GPT-4 等のプロプライエタリモデルからの蒸留はこの系統に属する。 ## 横断的知見 - 量子化が圧縮-精度トレードオフで他手法(プルーニング・低ランク近似)を凌駕する傾向にある(Li+ 2024c による比較)。(Source: [[@2024__TMLR__Efficient Large Language Models - A Survey]]) - 4 手法は直交的であり組み合わせ可能である——例えば LoSparse は低ランク近似とプルーニングを統合する。(Source: [[@2024__TMLR__Efficient Large Language Models - A Survey]]) - 活性化外れ値の処理が PTQ の共通課題であり、チャネル単位の変換(SmoothQuant)、外れ値隣接値の枝刈り(OliVe)、チャネルグループ化(RPTQ)など多方向からの攻略が進む。(Source: [[@2024__TMLR__Efficient Large Language Models - A Survey]]) - LLM 圧縮は事後学習設定(Post-Training)が主流である——数十億パラメータの再学習コストが QAT の採用障壁となっている。(Source: [[@2024__TMLR__Efficient Large Language Models - A Survey]]) - [[@2025__ACM Computing Surveys__Towards Efficient Generative Large Language Model Serving]](Miao+ の LLM サービングサーベイ)は推論側から圧縮手法の影響を扱い、本サーベイは訓練時圧縮を含む広範なスペクトルをカバーする——同じ手法群を供給側(圧縮)と需要側(サービング)の双方から俯瞰することで、圧縮が推論レイテンシ・スループットにどう波及するかが見える。(Source: [[@2024__TMLR__Efficient Large Language Models - A Survey]], [[@2025__ACM Computing Surveys__Towards Efficient Generative Large Language Model Serving]]) ## 未解決の問い - 1 ビット量子化(BitNet 等)はどこまでスケールできるか——数百億パラメータ以上での品質検証が不足している。 - 圧縮後モデルへの PEFT 適用(QLoRA、CEPT)の複合最適化はどこまで一般化できるか。 - 非構造化プルーニングのハードウェアサポート(Ampere 以降のスパース演算)はどこまで実用的か。 - 4 手法の最適な組み合わせ順序と相互作用の体系的理解が不足している。 ## 関連 - ソース: [[@2024__TMLR__Efficient Large Language Models - A Survey]] / [[@2025__ACM Computing Surveys__Towards Efficient Generative Large Language Model Serving]] - 概念: [[LLM推論]] / [[Mixture-of-Experts]] / [[LLM分散学習]] - 関連 MOC: [[LLM4SRE - MOC]] ## 出典 - [[@2024__TMLR__Efficient Large Language Models - A Survey]](§3 Model Compression: §3.1 Quantization, §3.2 Parameter Pruning, §3.3 Low-Rank Approximation, §3.4 Knowledge Distillation) - [[@2025__ACM Computing Surveys__Towards Efficient Generative Large Language Model Serving]](推論側からの圧縮手法の影響——サービング観点での量子化・プルーニングの実効性)