joisino-LLMの能力の穴-2026 - yuuk1's Digital Garden

# LLMの能力の「穴」出典: [LLMの能力の「穴」](https://joisino.hatenablog.com/entry/zeh) — 佐藤竜馬 (joisino) / ジョイジョイジョイ、2026-01-26 元論文: [Even GPT-5.2 Can't Count to Five: The Case for Zero-Error Horizons in Trustworthy LLMs](https://arxiv.org/abs/2601.15714) 関連概念: [[ゼロエラー境界]] | [[LLM評価]] | [[LLM能力スパース性]] | [[LLMアプリケーション信頼性]] --- ## 概要最先端 LLM(GPT-5.2)が流体力学や低レイヤープログラミングをこなせる一方、ごく単純な問題でも誤答することを示し、この「能力の穴」を体系的に評価する指標として**ゼロエラー境界(Zero-Error Horizon; ZEH)**を提案する技術ブログ記事。arXiv:2601.15714 の解説。 --- ## 能力のちぐはぐさ GPT-5.2-2025-12-11 は次の簡単な問題で誤答する。 | タスク | 入力 | 正解 | 誤答 | |---|---|---|---| | 二進文字列 `11000` の偶奇判定 | `11000` | 0(偶数個の 1) | 1 | | カッコ `((((())))))` の均衡判定 | `((((())))))` | No | Yes | | 127×82 の計算 | `127*82=` | 10414 | 10314 | これらは API から temperature=0 で再現でき、誰でも検証可能である。同じモデルが流体力学シミュレーションをこなすことと、このような単純な誤りが共存することが信頼性の問題の本質である。 ## ゼロエラー境界(ZEH)の定義モデル・タスク・プロンプト・乱数を固定する。問題サイズの小さい順に全問入力したとき、「サイズ $n$ までは全問正解、サイズ $n+1$ で初めて誤答する問題が存在する」ならゼロエラー境界は $n$ である。その誤答した例を**リミッター(ZEH limiter)**と呼ぶ。 GPT-5.2 の実測値: - 掛け算: ZEH=126(127×82 がリミッター) - 二進文字列偶奇: ZEH=4(`11000` がリミッター) - カッコ均衡判定: ZEH=10(`((((())))))` がリミッター) ZEH の算出は基本的に全探索であるが、論文では高速化手法も述べている。 ## ZEH の利点 ### 1. リミッターが確固とした証拠 API コマンド 1 つで誰でも再現・検証できる。数学的にもコミュニケーション上も有効な根拠となる。 ### 2. 驚きのある結果が自動的に得られる `((((()))))))` はリミッターとして自動発見された。試行錯誤ではなく「最も簡単な誤答例」が副産物として得られる。 ### 3. 評価範囲に恣意性がない正解率(accuracy)は評価者が問題範囲を設定するため先入観や操作の影響を受ける。たとえば 7B と 72B の Qwen2.5 の比較で、評価範囲次第で「ほぼ差がない」と「大きな差がある」の両方の主張が可能になる。一方 ZEH はモデル自身が境界を定めるため恣意性がない。実測値は Qwen2.5-7B で ZEH=22、72B で ZEH=42 となり、客観的な比較が可能。 ### 4. ベンチマークの時代遅れが起きにくい範囲を固定したベンチマーク(MNIST、CIFAR-10、GLUE 等)は飽和して識別力を失う。ZEH はモデル能力に合わせてオープンエンドに難度が延伸する。 ### 5. エラーパターンの構造を識別できる正解率が同じ 90% でも「ランダムに誤る」パターン(ZEH=4 程度)と「簡単な問題は確実に正解し難問を順当に誤る」パターン(ZEH=97 程度)は実用上まったく異なる。後者の方が予測可能で扱いやすい。ZEH はこの違いを定量化する。 Qwen2.5-72B は正解率 98.6% で ZEH=42。完全ランダム誤りなら ZEH<10 のはずだが実測は 42 であり、モデルが「順当に間違えている」ことが確認できる。 ## リミッターと敵対的例の違い敵対的例は分布外の不自然な例でモデルが誤ることはある意味当然である。リミッターは自然な分布内の例であり、かつ最も小さく簡単な誤答例であるため、実際上の意義と洞察の重みが異なる。 ## プロンプト・乱数への依存と頑健性 ZEH はプロンプトと乱数を固定して計測する。プロンプトや乱数を変えれば正解することもある。しかし「プロンプトや乱数次第で誤りうる」という事実自体が高リスク領域(金融・制御システム等)では問題である。`((((())))))` のリミッターはウェブ版 ChatGPT や GPT-5.2-Thinking でも 50% 程度の確率で誤答しており、比較的頑健なリミッターと言える。 ## 含意とまとめ - LLM の能力のちぐはぐさは信頼性の高い領域での展開を妨げる主因 - 複雑タスクの中間ステップで基本演算が誤ると、誤りが伝播して最終結論が崩れる - ツール呼び出しを許可されていても、呼び出すべきか否かの判断を誤る場合がある(GPT-5.2-Thinking はカッコ均衡を自力で計算してミス) - ZEH は「LLM はまだこんな愚かな間違いをする」という主張をシステマチックに行う手段を提供する --- ## 出典 - [joisino.hatenablog.com/entry/zeh](https://joisino.hatenablog.com/entry/zeh)(2026-01-26) - arXiv:2601.15714 — Even GPT-5.2 Can't Count to Five: The Case for Zero-Error Horizons in Trustworthy LLMs