SCBench - yuuk1's Digital Garden

# SCBench（SharedContextBench） [[Yucheng Li]]・[[Huiqiang Jiang]] ら [[Microsoft]] / [[University of Surrey]] の共同研究グループが提案した長コンテキスト手法評価ベンチマーク（ICLR 2025）。既存ベンチマークが単一リクエスト評価に限定されていた問題を解決し、KV キャッシュの再利用（共有コンテキスト）を明示的に評価する初めての包括的ベンチマーク。 ## 基本仕様 | 項目 | 内容 | |------|------| | タスク数 | 12 タスク | | セッション数 | 931 マルチターン・セッション | | クエリ数 | 4,853 クエリ（平均 5 ターン/セッション）| | 平均入力長 | 227K トークン | | 共有コンテキスト・モード | マルチターン・モード / マルチリクエスト・モード | ## 4 長コンテキスト能力カテゴリ 1. **文字列検索**（Retr.KV, Retr.Prefix-Suffix, Retr.MultiHop）：正確な一致が必要な検索 2. **意味的検索**（Code.RepoQA, En.QA, Zh.QA, En.MultiChoice）：セマンティック理解が必要な検索 3. **グローバル情報**（Math.Find, ICL.ManyShot, En.Sum）：文脈全体の統合・集約 4. **マルチタスク**（Mix.Sum+NIAH, Mix.RepoQA+KV）：複数タスクの同時実行 ## 主要な評価知見 - sub-O(n) メモリ手法（KV 破棄系）はマルチターン以降で精度が急落し、第 2 リクエスト以降でほぼゼロになる - スパース符号化 + 密復号（O(n) メモリ）は複数リクエストで安定した性能を維持 - 動的スパース・アテンション（MInference）が静的パターン（A-shape, Tri-shape 等）を一貫して上回る - KV キャッシュ破棄系はクエリ非依存設定（マルチリクエスト）でさらに大幅に性能劣化 - 圧縮率 1/4 が sub-O(n) 手法の精度急落の閾値 ## 関連 - 論文: [[@2025__ICLR__SCBench - A KV Cache-Centric Analysis of Long-Context Methods]] - 提案者: [[Yucheng Li]] / [[Huiqiang Jiang]] - 所属機関: [[Microsoft]] / [[University of Surrey]] - 対比ベンチマーク: LongBench / InfiniteBench / RULER / HELMET（いずれも単一リクエスト評価のみ）