ゼロエラー境界 - yuuk1's Digital Garden

# ゼロエラー境界 ## 定義ゼロエラー境界(Zero-Error Horizon; ZEH)は、LLM の「能力の穴」を測定する評価指標である。モデル・タスク・プロンプト・乱数を固定した上で、問題サイズの小さい順に全問入力したとき、「サイズ $n$ までは全問正解し、サイズ $n+1$ で初めて誤答する問題が存在する」ならゼロエラー境界を $n$ と定義する。そのサイズ $n+1$ の誤答例を**リミッター(ZEH limiter)**と呼ぶ。arXiv:2601.15714 が提案し、佐藤竜馬が [[joisino-LLMの能力の穴-2026]] で解説した。(Source: [[joisino-LLMの能力の穴-2026]]) GPT-5.2-2025-12-11 の実測例: | タスク | 問題サイズの定義 | ZEH | リミッター | |---|---|---|---| | 掛け算 | `max(a, b)` | 126 | 127×82(誤答: 10314、正解: 10414) | | 二進文字列の偶奇判定 | 文字列長 | 4 | `11000` | | カッコ均衡判定 | 文字列長 | 10 | `((((())))))` | ## 横断的知見 - **ZEH はベンチマーク飽和問題に対する構造的な回答である**: 従来の静的評価ベンチマーク(MMLU・CIFAR-10・GLUE 等)は範囲を固定するため最先端モデルが飽和すると識別力を失う([[LLM評価]])。ZEH はモデル能力に合わせてオープンエンドに難度が延伸するため飽和しにくい。また、[[LLM評価]] での「専門家最前線ベンチマーク(HLE)」は難問を難問として静的に設定するのに対し、ZEH はモデル自身が境界を定める点で設計思想が異なる。(Source: [[joisino-LLMの能力の穴-2026]], [[LLM評価]]) - **正解率と ZEH は直交する情報を測定する**: 正解率 98.6% の Qwen2.5-72B でも ZEH=42 を実測でき、これはランダム誤りなら ZEH<10 のはずという理論値と対比することで「順当な誤り方」を確認できる。同じ正解率でもランダム誤り(ZEH=4 程度)と順当な誤り(ZEH=97 程度)はエラーパターンの構造が根本的に異なる。(Source: [[joisino-LLMの能力の穴-2026]]) ## 未解決の問い - ZEH はプロンプト・乱数の固定に依存するが、「頑健な ZEH」(複数プロンプト・複数乱数で共通して現れる境界)を定義することはできるか？ - リミッターの発見を全探索より効率的に行うアルゴリズムとして、論文(arXiv:2601.15714)が提案する手法の計算量はどの程度か？ - ZEH はどの種類のタスク(算術・論理・言語等)に適用可能か？テキスト生成や要約のようにグラウンドトゥルースが不明確なタスクへの拡張は可能か？ - ZEH の測定コスト(全探索による全問入力)は大規模評価に対して実用的か？ - モデルの能力が向上するにつれて ZEH はどのようにスケールするか？スケーリング則と ZEH の間に相関はあるか？ - 「能力の穴」は訓練データ・アーキテクチャ・ファインチューニング手法のどの要因が最も寄与するか？ ## 関連 - [[LLM評価]] — 静的ベンチマーク・人間嗜好型評価との対比 - [[LLM能力スパース性]] — 高度な能力と単純な誤りが共存する現象 - [[LLMアプリケーション信頼性]] — 信頼性の高い領域への LLM 展開における課題 - [[Chain-of-Thought Prompting]] — CoT を許可しても ZEH リミッターで誤答が起きる事例と接続 ## 出典 - [[joisino-LLMの能力の穴-2026]] — 佐藤竜馬、2026-01-26 - arXiv:2601.15714 — Even GPT-5.2 Can't Count to Five: The Case for Zero-Error Horizons in Trustworthy LLMs