# SCBench(SharedContextBench) [[Yucheng Li]]・[[Huiqiang Jiang]] ら [[Microsoft]] / [[University of Surrey]] の共同研究グループが提案した長コンテキスト手法評価ベンチマーク(ICLR 2025)。既存ベンチマークが単一リクエスト評価に限定されていた問題を解決し、KV キャッシュの再利用(共有コンテキスト)を明示的に評価する初めての包括的ベンチマーク。 ## 基本仕様 | 項目 | 内容 | |------|------| | タスク数 | 12 タスク | | セッション数 | 931 マルチターン・セッション | | クエリ数 | 4,853 クエリ(平均 5 ターン/セッション)| | 平均入力長 | 227K トークン | | 共有コンテキスト・モード | マルチターン・モード / マルチリクエスト・モード | ## 4 長コンテキスト能力カテゴリ 1. **文字列検索**(Retr.KV, Retr.Prefix-Suffix, Retr.MultiHop):正確な一致が必要な検索 2. **意味的検索**(Code.RepoQA, En.QA, Zh.QA, En.MultiChoice):セマンティック理解が必要な検索 3. **グローバル情報**(Math.Find, ICL.ManyShot, En.Sum):文脈全体の統合・集約 4. **マルチタスク**(Mix.Sum+NIAH, Mix.RepoQA+KV):複数タスクの同時実行 ## 主要な評価知見 - sub-O(n) メモリ手法(KV 破棄系)はマルチターン以降で精度が急落し、第 2 リクエスト以降でほぼゼロになる - スパース符号化 + 密復号(O(n) メモリ)は複数リクエストで安定した性能を維持 - 動的スパース・アテンション(MInference)が静的パターン(A-shape, Tri-shape 等)を一貫して上回る - KV キャッシュ破棄系はクエリ非依存設定(マルチリクエスト)でさらに大幅に性能劣化 - 圧縮率 1/4 が sub-O(n) 手法の精度急落の閾値 ## 関連 - 論文: [[@2025__ICLR__SCBench - A KV Cache-Centric Analysis of Long-Context Methods]] - 提案者: [[Yucheng Li]] / [[Huiqiang Jiang]] - 所属機関: [[Microsoft]] / [[University of Surrey]] - 対比ベンチマーク: LongBench / InfiniteBench / RULER / HELMET(いずれも単一リクエスト評価のみ)