# SCBench(SharedContextBench)
[[Yucheng Li]]・[[Huiqiang Jiang]] ら [[Microsoft]] / [[University of Surrey]] の共同研究グループが提案した長コンテキスト手法評価ベンチマーク(ICLR 2025)。既存ベンチマークが単一リクエスト評価に限定されていた問題を解決し、KV キャッシュの再利用(共有コンテキスト)を明示的に評価する初めての包括的ベンチマーク。
## 基本仕様
| 項目 | 内容 |
|------|------|
| タスク数 | 12 タスク |
| セッション数 | 931 マルチターン・セッション |
| クエリ数 | 4,853 クエリ(平均 5 ターン/セッション)|
| 平均入力長 | 227K トークン |
| 共有コンテキスト・モード | マルチターン・モード / マルチリクエスト・モード |
## 4 長コンテキスト能力カテゴリ
1. **文字列検索**(Retr.KV, Retr.Prefix-Suffix, Retr.MultiHop):正確な一致が必要な検索
2. **意味的検索**(Code.RepoQA, En.QA, Zh.QA, En.MultiChoice):セマンティック理解が必要な検索
3. **グローバル情報**(Math.Find, ICL.ManyShot, En.Sum):文脈全体の統合・集約
4. **マルチタスク**(Mix.Sum+NIAH, Mix.RepoQA+KV):複数タスクの同時実行
## 主要な評価知見
- sub-O(n) メモリ手法(KV 破棄系)はマルチターン以降で精度が急落し、第 2 リクエスト以降でほぼゼロになる
- スパース符号化 + 密復号(O(n) メモリ)は複数リクエストで安定した性能を維持
- 動的スパース・アテンション(MInference)が静的パターン(A-shape, Tri-shape 等)を一貫して上回る
- KV キャッシュ破棄系はクエリ非依存設定(マルチリクエスト)でさらに大幅に性能劣化
- 圧縮率 1/4 が sub-O(n) 手法の精度急落の閾値
## 関連
- 論文: [[@2025__ICLR__SCBench - A KV Cache-Centric Analysis of Long-Context Methods]]
- 提案者: [[Yucheng Li]] / [[Huiqiang Jiang]]
- 所属機関: [[Microsoft]] / [[University of Surrey]]
- 対比ベンチマーク: LongBench / InfiniteBench / RULER / HELMET(いずれも単一リクエスト評価のみ)