## Memo
- ![[Pasted image 20250826113358.png]]
- ![[Pasted image 20250826113744.png]]
- ![[Pasted image 20250826113945.png]]
- ![[Pasted image 20250826113535.png]]**
## Memo with LLM
### 論文情報
- **論文のタイトル**: AI and Memory Wall
- **著者と所属**:
- Amir Gholami (UC Berkeley, LBNL)
- Zhewei Yao (UC Berkeley)
- Sehoon Kim (UC Berkeley)
- Coleman Hooper (UC Berkeley)
- Michael W. Mahoney (UC Berkeley)
- Kurt Keutzer (UC Berkeley)
- **カンファレンス/ジャーナル名**: IEEE Micro
- **発表年**: 2024年(Volume 44, Pages 33-39)
### 論文概要
本論文は、大規模言語モデルの訓練・推論における主要なボトルネックが計算能力からメモリ帯域幅に移行していることを分析し、「メモリウォール」問題の深刻化を警告している。過去20年間でピークハードウェア性能は3.0倍/2年で向上したが、DRAMと相互接続帯域幅はそれぞれ1.6倍と1.4倍/2年の向上にとどまり、この格差によりメモリが主要なボトルネックとなっていることを示している。
### 詳細解説
#### 問題設定
- **入力**: Transformerモデル(エンコーダー型とデコーダー型)の推論・訓練プロセス
- **出力**: メモリ帯域幅が性能ボトルネックとなる条件とその定量的分析
- **必要なデータ**: ハードウェアの計算性能履歴、メモリ帯域幅の履歴、各種AIモデルの計算量・メモリ使用量データ
#### 提案手法
本論文では特定の新手法を提案するのではなく、問題の分析と解決方向の提示を行っている:
1. **算術強度(Arithmetic Intensity)分析**: FLOPs数をメモリアクセス量で割った値を用いて、計算とメモリアクセスのバランスを評価
- エンコーダーモデル(BERT等): 行列-行列演算により高い算術強度
- デコーダーモデル(GPT等): 行列-ベクトル演算により低い算術強度
2. **解決策の方向性**:
- **効率的な訓練アルゴリズム**: 二次最適化手法(ADAHESSIAN等)、再材料化(rematerialization)
- **効率的なデプロイメント**: 量子化(INT4まで)、プルーニング(最大80%のスパース化)
- **ハードウェア設計の再考**: 計算性能とメモリ帯域幅のバランス改善
#### 新規性
先行研究との比較において、本研究の新規性は以下の点にある:
1. **1995年のWulf & McKeeの「メモリウォール」概念の現代AI文脈での再検証**: 30年前の予測が現在のAI分野で現実となっていることを実証的に示した
2. **Transformerアーキテクチャの詳細分析**: エンコーダー型とデコーダー型の算術強度の違いを定量的に比較し、デコーダー型でメモリボトルネックが顕著になることを実証
3. **スケーリング法則の包括的分析**: 計算量(750倍/2年)、モデルサイズ(410倍/2年)、ハードウェア性能(3.0倍/2年)の非対称な成長を統合的に分析
#### 実験設定
- **使用データセット**:
- 1998年LeNet-5から2020年GPT-3まで25年間のAIモデル履歴データ
- ハードウェア性能履歴(FLOPS、DRAM帯域幅、相互接続帯域幅)
- **評価指標**:
- 算術強度 = FLOPs / Memory Operations (MOPs)
- 推論レイテンシ
- メモリフットプリント
- **実験環境**: Intel Gold 6242 CPUでのプロファイリング実験
#### 実験結果
論文中で報告されている具体的な数値:
1. **ハードウェアの成長率**:
- ピークハードウェアFLOPS: 3.0倍/2年
- DRAM帯域幅: 1.6倍/2年
- 相互接続帯域幅: 1.4倍/2年
- 過去20年間でピーク性能は60,000倍向上、DRAM/相互接続は100倍/30倍
2. **AIモデルの成長率**:
- 計算量: 750倍/2年(2018-2022)
- モデルサイズ: 410倍/2年(同期間)
3. **算術強度の比較**:
- BERT-BaseとGPT-2は同程度のFLOPs数だが、GPT-2の推論レイテンシがBERTより大幅に長い
- これはGPT-2の低い算術強度(行列-ベクトル演算)による
4. **メモリ削減効果**:
- 再材料化により最大5倍のメモリ削減、計算量増加は20%のみ
- 量子化によりモデルサイズとレイテンシを最大8倍削減
- プルーニングにより構造化スパース化30%、非構造化スパース化80%を達成
## Abstract
前例のない教師なし訓練データの利用と神経スケーリング法則により、[[LLM|大規模言語モデル]]のサービング・訓練におけるモデルサイズと計算要求が急激に増大している。しかし、主要な性能ボトルネックはメモリ帯域幅にますます移行している。過去20年間で、ピークサーバーハードウェアの浮動小数点演算/秒は2年毎に3.0倍で拡張し、2年毎に1.6倍と1.4倍でしか拡張していないDRAMと相互接続帯域幅の成長を上回っている。この格差により、特にサービングにおいて、計算ではなくメモリがAIアプリケーションの主要なボトルネックとなっている。本研究では、エンコーダーおよびデコーダー[[Transformer]]モデルを分析し、デコーダーモデルにおいてメモリ帯域幅が支配的なボトルネックとなる可能性を示す。我々は、このメモリ制約を克服するために、モデルアーキテクチャ、訓練、デプロイメント戦略の再設計を主張する。