# Search Your Block Floating Point Scales! > [!info] Talk metadata > - **会議:** [[MLSys2026]] Day 3 (May 20 / Wed)、Grand Ballroom 2、18:00 - 18:15 PDT > - **セッション:** Research Track Oral: Model Compression > - **登壇者:** Tanmaey Gupta(Cornell University / Together AI、筆頭著者) > - **全著者:** Tanmaey Gupta¹², Hayden Prairie³², Shirley Wu², Reyna Abhyankar², Qingyang Wu², Austin Silveria², Pragaash Ponnusamy², Jue Wang², Ben Athiwaratkun², Leon Song², Tri Dao⁴², Daniel Y. Fu³², Chris De Sa¹² > - **所属:** ¹Cornell University、²Together AI、³University of California San Diego(La Jolla)、⁴Princeton University > - **URL:** https://mlsys.org/virtual/2026/oral/3770 > - **OpenReview:** https://openreview.net/forum?id=innqECyZPK > [!abstract] 概要 > 量子化は生成モデルの推論高速化における標準的手法であり、最近の GPU アクセラレータはマイクロスケーリング Block Floating Point(BFP)フォーマットを一級サポートしている。標準的な BFP アルゴリズムはブロック内の最大絶対値に基づく固定スケールを使用するが、この選択は量子化誤差に関して準最適である。本研究は ScaleSearch を提案する。マイクロスケーリングフォーマットにおける仮数ビットを活用した細粒度探索によりスケールファクタを最適化し、量子化誤差を最小化する手法である。ScaleSearch は PTQ や低精度アテンションなど既存の量子化手法と統合可能であり、性能を一貫して改善する。さらに ScaleSearchAttention を導入する。これは ScaleSearch を用いた NVFP4 ベースの高速アテンションアルゴリズムであり、因果言語モデリングでほぼゼロの性能劣化を達成する。実験では ScaleSearch が NVFP4 の量子化誤差を 27% 削減し、MATH500 ベンチマーク(Qwen3-8B)で最大 15 ポイントの改善を示す。ScaleSearchAttention は Llama 3.1 70B で Wikitext-2 PPL を最大 0.77 ポイント改善し、量子化精度の向上とともにベースライン性能にほぼ匹敵する。 ## 背景: BFP フォーマットと量子化の課題 - 量子化は生成モデルの推論効率化において重要な役割を果たすが、超低ビット幅では精度維持が困難である。Block Floating Point(BFP)フォーマットは、固定小数点と浮動小数点の中間に位置し、精度・ダイナミックレンジ・ハードウェアサポートのバランスの取れたトレードオフを提供する。 - NVIDIA Blackwell アーキテクチャは NVFP4 と MXFP4 の 2 種の 4 ビット BFP フォーマットをサポートし、B200 で FP8 比 2 倍、B300 で 3 倍のスループットを実現する。 - BFP の中心概念は、テンソルブロック内の要素が類似した大きさを共有する傾向を利用し、共通指数+個別整数仮数で表現することである。これによりストレージオーバーヘッドを大幅に削減しつつ整数行列乗算パイプラインを利用可能にする。 ### NVFP4 フォーマット - NVFP4 は 16 値のマイクロブロック上で動作するハードウェア加速 FP4 フォーマットであり、各ブロックは 8 ビット E4M3 浮動小数点数のスケールファクタを共有する。値は E2M1 フォーマット($\mathbb{R}_{\text{E2M1}} = \{0, \pm 0.5, \pm 1, \pm 1.5, \pm 2, \pm 3, \pm 4, \pm 6\}$)で表現され、平均 4.5 ビット/数値を使用する。 - 標準的な量子化手順は、ブロック内の最大絶対値から $s = \text{round}_{\text{UE4M3}}(\|x\|_\infty / 6.0)$ としてスケールを計算し、各要素を $q_i = \text{round}_{\text{E2M1}}(x_i / s)$ で量子化する。ここで 6.0 は E2M1 で表現可能な最大値である。 ### MXFP4 フォーマット - MXFP4 は同じ 4 ビット E2M1 エンコーディングを使用するが、ブロックサイズ 32・UE7M0(2 のべき乗スケール)という構成を取る。NVFP4 の方がブロックサイズが小さく高精度スケールのため量子化誤差が低い。 ## 提案手法: ScaleSearch ### 動機: 最大値ベーススケーリングの準最適性 - 入力ベクトル $x$ の最大絶対値のみに基づくスケール選択は、$\mathbb{V}_{\text{NVFP4}}$ 内で $x$ に最も近いベクトルを見つける保証がない。直感的には「十分良い」ヒューリスティクスとされてきたが、大幅に準最適となりうる。 - 合成ガウスデータと実際のニューラルネットワークテンソルの双方で、代替スケールがはるかに低い平均二乗誤差(MSE)をもたらすことを実証している。 ### アルゴリズム(Algorithm 1) - ScaleSearch の核心的アイデアは、標準の最大絶対値スケール $s$ の近傍を探索し、量子化誤差を最小化するスケールを選択することである。 - NVFP4 のスケールが E4M3 フォーマットで仮数ビットを持つことに着目し、整数 $f$ によるオフセット $s^{(f)} = \text{reinterpret}(\text{reinterpret}(s, \text{int8}) + f, \text{fp8}_{\text{UE4M3}})$ を定義する。すなわち $s^{(0)} = s$(デフォルト)、$s^{(1)}$ は $s$ より 1 段階大きい UE4M3 値、$s^{(-1)}$ は 1 段階小さい値となる。 - ScaleSearch は最小オフセット $f_{\min}$ から最大オフセット $f_{\max}$ まで網羅的に探索し、各スケール候補で量子化→逆量子化→MSE 計算を行い、最小誤差のスケールを選択する。 ### オフセット分布の分析 - ガウステンソルと実モデルテンソル(Llama 3.1 8B の Key state)で最適オフセットの経験的分布を分析すると、双峰分布が現れる。ピークはオフセット 0(デフォルト付近)とオフセット 4〜5 付近に集中する。 - 後者のピークの直感的説明: デフォルトスケール(オフセット 0)は最大要素を FP4 最大値 6 で表現するよう設計されるが、最大要素を次善値 4 で表現するスケール(約 1.5 倍大きいスケール、E4M3 でオフセット 4〜5 に対応)がブロック全体でより低い量子化誤差を実現する場合がある。 - この分析に基づき、実験では $f_{\min} = -2$、$f_{\max} = +6$ の探索範囲を採用する。 ### 合成データ検証 - 標準ガウス分布から生成した大規模 FP32 テンソルを NVFP4 に量子化した実験では、探索スケール数を増やすにつれ MSE が 0.0990 から 0.0066 へ単調減少し飽和する。合成データで約 25% の MSE 削減を達成する。 ### フォーマット横断的効果 - 各種スケール/値フォーマットの組合せに対する ScaleSearch 改善率を系統的に評価した結果、NVFP4(E4M3 スケール + E2M1 値)で約 27% の量子化誤差削減を達成する。MXFP6(E4M3 値)で 11%、MXFP4 で 8% の削減も確認される。 - ScaleSearch の利点は (1) ブロックサイズが小さい、(2) 浮動小数点スケールファクタ(仮数ビットを持つ)のフォーマットで顕著となる。ブロックサイズが増大すると探索側と非探索側の MSE 差は縮小する。 ## ScaleSearchAttention ### 設計 - ScaleSearch を拡張し、推論時のアテンション計算を NVFP4 フォーマットでエンドツーエンドに最適化する ScaleSearchAttention を提案する。 - アテンション層に関与する全テンソル(Q, K, P, V)を NVFP4 フォーマットに量子化し、NVFP4 Tensor Core で直接乗算する。$QK^\top$ と $PV$ の行列積を脱量子化オーバーヘッドなしに NVFP4 精度で実行し、結果は FP32 で累積する。 - KV キャッシュを 4.5 ビット NVFP4 フォーマットで格納することで、計算効率に加えメモリフットプリントも削減する。ブロックスケールは per-row スケーリング後に ScaleSearch で計算し、行列乗算の reduction 次元に沿って量子化する。 ### 精度回復のための追加技法 1. **Incoherence Processing(IP)と大きさ削減:** QuIP#(Tseng et al., 2024)に倣い、アダマール行列 $H$ で Q と K を変換してアウトライアを削減する。さらに線形変換 $Q' = QR^{-T}$、$K' = KR$ を導入し、射影後の Q と K の平均二乗大きさを最小化する。この変換はアテンションスコア $Q'{K'}^\top = QK^\top$ を保存しつつ量子化誤差を低減する。最適な $R$ は $X^{1/2}Y^{1/2}$ の SVD により解析的に求まる。 2. **Attention-sink-aware 混合精度キャッシュ:** アテンションスコアが直近トークンと初期トークンに集中する attention sink 現象を活用し、先頭ブロックと末尾ブロック(不完全ブロック含む、サイズ $O(B)$)をフル精度で保持し、残りを NVFP4 で格納する。メモリ使用量はコンテキスト長やバッチサイズに対しスケールしない。 ### ワークフロー - 推論時のワークフロー: 量子化済み K と量子化済み Q を NVFP4 Tensor Core 命令で乗算(先頭・末尾ブロックはフル精度 matmul)→ ソフトマックス → P を量子化 → 混合精度で V と乗算 → 新規生成されたトークンの K, V state を未量子化ブロック末尾に追加し、完全ブロック化した時点で NVFP4 に量子化して圧縮 KV キャッシュに格納。全行列が量子化済みで FP32 累積のため脱量子化ステップは不要。 ## 実験結果 ### PTQ(Post-Training Quantization) - DeepSeek-R1-Distill-Qwen-1.5B と Qwen3-8B を対象に、GPQA・MATH-500・AIME-120・MMLU の 4 ベンチマークで評価する。ベースライン(非量子化)および TensorRT-Model-Optimizer(ModelOpt)による NVFP4 量子化と比較する。 | モデル | 手法 | GPQA | MATH-500 | AIME-120 | MMLU | |---|---|---|---|---|---| | DeepSeek-R1-Distill-Qwen-1.5B | ベースライン | 32.6 (3.2) | 64.6 (1.4) | 24.5 (2.3) | 48.0 | | | NVFP4 | 30.4 (4.2) | 51.6 (2.9) | 18.7 (1.4) | 45.2 | | | **ScaleSearch** | **31.3 (1.8)** | **62.1 (1.9)** | **19.8 (1.9)** | **45.4** | | Qwen3-8B | ベースライン | 51.3 (3.8) | 72.8 (3.4) | 71.0 (3.0) | 79.7 | | | NVFP4 | 42.4 (5.5) | 73.1 (4.3) | 63.7 (1.3) | 77.7 | | | **ScaleSearch** | **49.9 (1.6)** | **88.1 (0.6)** | **63.0 (2.2)** | **79.4** | - ScaleSearch は全ベンチマークで NVFP4 を上回り、**最大 15 ポイント**(Qwen3-8B の MATH-500)の改善を達成する。非量子化ベースラインとの差を大幅に縮小する。 ### 拡散モデル推論アテンション - Mochi と CogVideoX のテキスト→動画生成タスクで SageAttention3 との比較を実施する。VQA-a・VQA-t・FScore で ScaleSearch が SageAttention3 を上回り、CLIPSIM・CLIP-T ではほぼ同等である。特に SageAttention3 がフル精度から大きく劣化する指標で ScaleSearch の改善が顕著となる。 ### ScaleSearchAttention: パープレキシティ - Llama 3.1 8B / 70B、Qwen3 4B / 8B で Wikitext-2 テストセットのトークンパープレキシティを評価する。 | 手法 | Llama 3.1 8B | Llama 3.1 70B | Qwen3 4B | Qwen3 8B | |---|---|---|---|---| | FullPrec | 5.4837 | 2.5554 | 11.1327 | 8.3013 | | Naive-FP4 | 5.9988 | 3.4000 | 11.5258 | 8.4429 | | SageAttention3 | 5.9542 | 3.3899 | 11.3672 | 8.4575 | | SA3 + ScaleSearch | 5.8060 | 3.2972 | 11.2441 | 8.4181 | | **ScaleSearchAttention** | **5.4977** | **2.6348** | **11.2088** | **8.3018** | - ScaleSearchAttention は全モデルで SageAttention3 と Naive-FP4 を上回る。Llama 3.1 70B では PPL を 3.4 から 2.6348 へ大幅に改善し、**フル精度(2.5554)との差を 0.08 ポイント未満に縮小**する。大規模モデルでの改善が顕著である。 ### 言語ベンチマーク - Llama 3.1 8B Instruct で GPQA Diamond を評価した結果、ScaleSearchAttention は 32.32 を達成し、SageAttention3(26.26)を上回り、フル精度(31.81)にほぼ匹敵する。 ### ScaleSearchAttention アブレーション | 構成 | PPL | |---|---| | ScaleSearchAttention(全構成) | 5.4977 | | ScaleSearch 除去 | 5.5024 | | IP・大きさ削減除去 | 5.5283 | | 混合精度 KV キャッシュ除去 | 5.5768 | - 全コンポーネントの結合が最良。混合精度 KV キャッシュの寄与が最大であり、その除去で PPL が 5.5768 まで悪化する。IP・大きさ削減、ScaleSearch もそれぞれ寄与する。 ## オーバーヘッドと効率 ### 量子化オーバーヘッド | 手法 | 時間 (ms) | オーバーヘッド | |---|---|---| | FP32 → NVFP4(ベースライン) | 0.0258 | 1.00× | | + ScaleSearch ([-1, 1]) | 0.0328 | 1.27× | | + ScaleSearch ([-2, 6]) | 0.0449 | 1.74× | - フル探索範囲 $[-2, 6]$ でも 1.74 倍の最小限のオーバーヘッドに留まり、量子化 MSE の一貫した改善を提供する。 ### アテンションスループット - RTX5090 上で SageAttention3 + ScaleSearch の組合せを FlashAttention・xformers・SageAttention 各世代と比較した結果、長シーケンス長(32K)でベースラインスループットの 98.3%(非因果)/ 97.5%(因果)を維持する。スケーリングサーチの追加がアテンションカーネルの臨界パス上でのランタイムオーバーヘッドをほぼ導入しないことを実証する。 ### エンドツーエンドレイテンシ | モデル | 手法 | E2E レイテンシ (秒) | |---|---|---| | Mochi | フル精度 | 503.38 | | | SageAttention3 | **353.40** | | | SA3 + ScaleSearch | 364.68 | | CogVideoX | フル精度 | 91.67 | | | SageAttention3 | **61.72** | | | SA3 + ScaleSearch | 63.09 | - SageAttention3 との差は Mochi で約 11 秒、CogVideoX で約 1.4 秒と小さく、精度改善に対するランタイムコストは無視できる水準である。 ## 位置づけと意義 - **アーキテクチャ非依存の汎用手法:** ScaleSearch は特定モデルやタスクに依存せず、NVFP4 量子化パイプラインに透過的に統合可能である。PTQ・FP4 アテンション・KV キャッシュ圧縮など複数の利用シナリオに適用できる。 - **ハードウェアトレンドとの整合:** NVIDIA Blackwell の NVFP4 Tensor Core を直接活用する設計であり、脱量子化を不要とする。4 ビット推論の実用化を支える基盤技術として位置づけられる。 - **既存手法との相補性:** SageAttention3 や ModelOpt の量子化パスの上に ScaleSearch を追加するだけで一貫した改善が得られ、既存ワークフローとの統合障壁が低い。 - **大規模モデルでの改善が顕著:** Llama 3.1 70B で PPL 差をフル精度比 0.08 未満に縮小するなど、モデル規模が大きいほど ScaleSearchAttention の効果が増す傾向がある。 ## 関連研究 - **BFP スケーリング量子化:** Drumond et al. (2018)、Darvish Rouhani et al. (2020, 2023)、Zhang et al. (2022) らが BFP フォーマットを発展させてきた。NVFP4 (Alvarez et al., 2025) は仮数ビット付きスケールを導入し ScaleSearch の探索空間を提供する。 - **PTQ:** GPTQ (Frantar et al., 2022)、AWQ (Lin et al., 2024)、ZeroQuant (Yao et al., 2022)、SmoothQuant (Xiao et al., 2023a) などの重み量子化手法と ScaleSearch は直交的に適用可能。 - **KV キャッシュ圧縮:** KVQuant (Hooper et al., 2024)、IntactKV (Liu et al., 2024c)、KIVI (Liu et al., 2024d) 等のトークン単位・チャネル単位手法と比較し、ScaleSearchAttention はブロック量子化ベースで Tensor Core ネイティブ演算を実現する。 - **低精度アテンション:** SageAttention3 (Zhang et al., 2025a) が最も直接の比較対象であり、ScaleSearch はそのスケーリング部分を改善する形で統合される。