モデル圧縮 - yuuk1's Digital Garden

# モデル圧縮 ## 定義モデル圧縮（Model Compression）は、LLM のモデルサイズと計算量を削減しつつ性能を維持する技術群の総称である。量子化（Quantization）、パラメータプルーニング（Parameter Pruning）、低ランク近似（Low-Rank Approximation）、知識蒸留（Knowledge Distillation）の 4 カテゴリに大別され、これらは直交的で組み合わせが可能である。LLM の再学習コストが極めて高いため、大半の圧縮手法は事後学習（Post-Training）設定で適用される。([[@2024__TMLR__Efficient Large Language Models - A Survey]]) 圧縮の動機は明確である——LLaMA-2 70B は FP16 で約 140 GB の GPU メモリを要し、単一 GPU でのデプロイが不可能になる。圧縮により単一カード搭載やエッジデバイスへの展開が可能となる。 ## 主要手法 ### 量子化（Quantization）重みや活性化の数値精度を下げてメモリ使用量と演算コストを削減する手法。4 カテゴリ中最も活発に研究されており、事後学習量子化（PTQ）と量子化対応学習（QAT）に大別される。 - **PTQ（事後学習量子化）**: 再学習不要で適用可能。重み専用量子化と重み-活性化同時量子化の 2 系統がある。 - 重み専用: GPTQ は 175B パラメータモデルを約 4 GPU 時間で 3〜4 ビットに量子化する。AWQ は顕著な重み（salient weight）を保護する。QuIP はインコヒーレンス処理により 2 ビット量子化を実現する。 - 重み-活性化同時: SmoothQuant はチャネル単位のスケーリングで活性化の外れ値を平滑化し、530B パラメータまでロスレスの 8 ビット量子化を達成する。QLLM は適応的チャネル再構成で外れ値チャネルを分解する。 - **活性化の外れ値**が PTQ の共通課題であり、チャネル単位変換（SmoothQuant）、外れ値隣接値の枝刈り（OliVe）、チャネルグループ化（RPTQ）など多方向からの攻略が進む。 - **QAT（量子化対応学習）**: BitNet が 1 ビット LLM を開拓した。PTQ より精度面で有利だが、再学習コストが高く大規模モデルへの適用障壁が大きい。 ### パラメータプルーニング（Parameter Pruning）不要なパラメータを除去してモデルを小型化する手法。構造化プルーニングと非構造化プルーニングがある。 - **構造化プルーニング**: LLM-Pruner は勾配ベースで結合構造を一括除去する。Sheared LLaMA は LLaMA2-7B を 1.3B まで圧縮した実例がある。 - **非構造化プルーニング**: SparseGPT は OPT-135B で 60% のスパース性を達成する。Wanda は二次情報を必要とせず軽量に適用できる。 ### 低ランク近似（Low-Rank Approximation）重み行列を低ランク行列の積に分解して圧縮する手法。SVD-LLM は切断対応ホワイトニングで精度劣化を抑制する。TensorGPT はテンソルトレイン分解（TTD）で埋め込み層を圧縮する。FWSVD や ASVD は Fisher 情報量や活性化を考慮した SVD の改良である。 ### 知識蒸留（Knowledge Distillation）大規模な教師モデルの知識を小規模な生徒モデルに転写する手法。ホワイトボックスとブラックボックスに分かれる。 - **ホワイトボックス蒸留**: 教師モデルの内部表現（ロジット・中間層）にアクセスできる前提。MiniLLM は逆 KL ダイバージェンスを方策勾配で最適化する。GKD は一般化された知識蒸留の枠組みを提供する。 - **ブラックボックス蒸留**: 教師の内部状態にアクセスせず API 出力のみを利用する。思考連鎖（CoT）蒸留が代表的で、Distilling Step-by-Step、Fine-tune-CoT、SOCRATIC CoT がある。Lion は敵対的サイクルで蒸留する。GPT-4 等のプロプライエタリモデルからの蒸留はこの系統に属する。 ## 横断的知見 - 量子化が圧縮-精度トレードオフで他手法（プルーニング・低ランク近似）を凌駕する傾向にある（Li+ 2024c による比較）。(Source: [[@2024__TMLR__Efficient Large Language Models - A Survey]]) - 4 手法は直交的であり組み合わせ可能である——例えば LoSparse は低ランク近似とプルーニングを統合する。(Source: [[@2024__TMLR__Efficient Large Language Models - A Survey]]) - 活性化外れ値の処理が PTQ の共通課題であり、チャネル単位の変換（SmoothQuant）、外れ値隣接値の枝刈り（OliVe）、チャネルグループ化（RPTQ）など多方向からの攻略が進む。(Source: [[@2024__TMLR__Efficient Large Language Models - A Survey]]) - LLM 圧縮は事後学習設定（Post-Training）が主流である——数十億パラメータの再学習コストが QAT の採用障壁となっている。(Source: [[@2024__TMLR__Efficient Large Language Models - A Survey]]) - [[@2025__ACM Computing Surveys__Towards Efficient Generative Large Language Model Serving]]（Miao+ の LLM サービングサーベイ）は推論側から圧縮手法の影響を扱い、本サーベイは訓練時圧縮を含む広範なスペクトルをカバーする——同じ手法群を供給側（圧縮）と需要側（サービング）の双方から俯瞰することで、圧縮が推論レイテンシ・スループットにどう波及するかが見える。(Source: [[@2024__TMLR__Efficient Large Language Models - A Survey]], [[@2025__ACM Computing Surveys__Towards Efficient Generative Large Language Model Serving]]) - **圧縮は「事後に小さくする」だけでなく、モデルファミリーを作る訓練計画にもなる**: PLaMo 2 は 31B モデルから構造化枝刈りと知識蒸留で 8B モデルを作り、500B トークン・55,000×10^18 FLOPs の追加計算で PLaMo 2 8B より高い JMMLU 値を報告した。ただし教師となる 31B モデルの訓練計算は表6の PLaMo 2.1 8B 計算資源に含まれていないため、単独モデルの総コスト比較ではなく、複数サイズ展開時の限界追加コストとして読むべきである。(Source: [[@2025__arXiv__PLaMo 2 Technical Report]], [[@2024__TMLR__Efficient Large Language Models - A Survey]]) - **モデル圧縮の対象は LLM に限らず、時系列異常検知モデルにも同型の技法群(プルーニング + 知識蒸留)が適用される**: RefinedEdge([[@2025__TSC__Bridging Edge and Cloud - A Knowledge-Enhanced Framework for Efficient Time Series Anomaly Detection]], IEEE TSC 2025)は、7M パラメータの TimesNet 教師モデルを、4 種のプルーニング戦略(Random-Magnitude・Magnitude-Magnitude・Taylor-Magnitude・BN-Scale Group)を単純平均でアンサンブルする**構造化プルーニング**と、再構成損失・蒸留損失を線形結合する**知識蒸留**を組み合わせ、0.12M パラメータ(圧縮率 1.7%)まで圧縮した。単一戦略でのプルーニングは「最適でない判断」に陥るリスクがあるとして複数戦略をアンサンブルする設計は、LLM 圧縮サーベイが指摘する「4 手法(量子化・プルーニング・低ランク近似・知識蒸留)は直交的で組み合わせ可能」という原理の、単一カテゴリ内(プルーニング戦略間)でのアンサンブル版と位置づけられる。(Source: [[@2025__TSC__Bridging Edge and Cloud - A Knowledge-Enhanced Framework for Efficient Time Series Anomaly Detection]] §IV-B) - **急激な圧縮を避ける「段階的プルーニング」は LLM・時系列モデルの双方で共通する設計原理である**: RefinedEdge はプルーニング率を ρi=ρ0+(1-ρ0)·i/ν で反復ごとに漸増させ、急激な性能劣化を避けつつモデルが内部表現を適応・微調整できるようにする。LLM 圧縮サーベイが強調する「PTQ/QAT を問わず、圧縮と精度のトレードオフを段階的に管理する」という原則が、時系列モデルの構造化プルーニングでも独立に採用されている。(Source: [[@2025__TSC__Bridging Edge and Cloud - A Knowledge-Enhanced Framework for Efficient Time Series Anomaly Detection]] §IV-B3, [[@2024__TMLR__Efficient Large Language Models - A Survey]]) ## 未解決の問い - 1 ビット量子化（BitNet 等）はどこまでスケールできるか——数百億パラメータ以上での品質検証が不足している。 - 圧縮後モデルへの PEFT 適用（QLoRA、CEPT）の複合最適化はどこまで一般化できるか。 - 非構造化プルーニングのハードウェアサポート（Ampere 以降のスパース演算）はどこまで実用的か。 - 4 手法の最適な組み合わせ順序と相互作用の体系的理解が不足している。 - 大型教師モデルを既に必要とする開発組織では、PLaMo 2 型の構造化枝刈り + 蒸留が複数サイズ展開の標準手順になるか。教師モデル訓練コストを含めたライフサイクル全体の損益分岐点はどこか。 - RefinedEdge のマルチ戦略プルーニングアンサンブル(重要度スコアの単純平均)は、LLM 圧縮の構造化プルーニング(LLM-Pruner・Sheared LLaMA 等)にも輸入可能か。LLM 圧縮サーベイが扱う個々のプルーニング手法は単一戦略が前提だが、複数の重要度指標(勾配ベース・マグニチュードベース・BN スケールベース)をアンサンブルすることで LLM でも精度劣化を緩和できるか、体系的な検証が無い。(Source: [[@2025__TSC__Bridging Edge and Cloud - A Knowledge-Enhanced Framework for Efficient Time Series Anomaly Detection]] §IV-B3) - 時系列モデルの圧縮率(RefinedEdge: 1.7%)は LLM 圧縮の典型的な圧縮率(Sheared LLaMA: 7B→1.3B で約 19%)より一桁小さい。モデルアーキテクチャ・タスクの違い(再構成 vs 生成)がこの差を生むのか、それとも時系列モデルは元々冗長性が高くさらなる圧縮余地があるのか。 ## 関連 - ソース: [[@2025__TSC__Bridging Edge and Cloud - A Knowledge-Enhanced Framework for Efficient Time Series Anomaly Detection]] / [[@2024__TMLR__Efficient Large Language Models - A Survey]] / [[@2025__ACM Computing Surveys__Towards Efficient Generative Large Language Model Serving]] / [[@2025__arXiv__PLaMo 2 Technical Report]] - 概念: [[LLM推論]] / [[Mixture-of-Experts]] / [[LLM分散学習]] / [[知識蒸留]] / [[異常検知]] / [[Edge-cloud Collaboration]] - エンティティ: [[RefinedEdge]] / [[Shenglin Zhang]] / [[Yongqian Sun]] - 関連 MOC: [[LLM4SRE - MOC]] ## 出典 - [[@2024__TMLR__Efficient Large Language Models - A Survey]](§3 Model Compression: §3.1 Quantization, §3.2 Parameter Pruning, §3.3 Low-Rank Approximation, §3.4 Knowledge Distillation) - [[@2025__ACM Computing Surveys__Towards Efficient Generative Large Language Model Serving]](推論側からの圧縮手法の影響——サービング観点での量子化・プルーニングの実効性) - [[@2025__arXiv__PLaMo 2 Technical Report]](31B から 8B への構造化枝刈り・知識蒸留、INT4 重み量子化、FP8 KV キャッシュ量子化) - [[@2025__TSC__Bridging Edge and Cloud - A Knowledge-Enhanced Framework for Efficient Time Series Anomaly Detection]](§IV-B Aggregated Compression: マルチ戦略アンサンブルプルーニング、Algorithm 1)