> [!abstract] 概要(arXiv abstract の日本語訳)
> ベンチマークは大規模言語モデル(LLM)の急速な能力進歩を追跡するための重要な道具である。しかし、ベンチマークは難易度の面で追いついていない。LLM は現在、MMLU のような有名ベンチマークで 90% 超の正解率を達成しており、最先端の LLM 能力を精密に測定する手段が限られている。これに対し、本論文では Humanity's Last Exam(HLE)を提案する。HLE は人類の知識の最前線に位置するマルチモーダルベンチマークであり、幅広い科目をカバーする閉形式の学術ベンチマークとして最終版となるよう設計されている。HLE は数学・人文科学・自然科学を含む数十の科目にわたる 2,500 問で構成される。HLE は分野の専門家によって世界各地で開発され、自動採点に適した多肢選択問題と短答問題で構成される。各問は既知の解があり、明確かつ容易に検証できるが、インターネット検索では素早く回答できない。最先端の LLM は HLE において低い正解率とキャリブレーションを示しており、現在の LLM 能力と閉形式の学術問題における人間専門家の水準との間に大きな差があることが明らかになる。モデル能力についての明確な理解に基づいて研究と政策立案を促進するため、HLE の 2,500 問を公開する(https://lastexam.ai)。
## 論文情報
- **タイトル**: Humanity's Last Exam
- **オーガナイズチーム**: Long Phan\*、Alice Gatti\*、Ziwen Han\*、Nathaniel Li\*(共同第一著者);Dan Hendrycks\*\*、Summer Yue\*\*、Alexandr Wang\*\*(上級著者)ほか多数
- **所属**: Center for AI Safety(CAIS)、Scale AI
- **媒体**: arXiv(arXiv:2501.14249、初稿 2025-01-24、v10 は 2026-02-20)
- **連絡先**:
[email protected]
- **データセット**: https://lastexam.ai
- **質問提出者**: 50 か国・500+ 機関の約 1,000 名の専門家(教授・研究者・博士号取得者が中心)
## 概要
LLM の急速な能力向上により MMLU など主要ベンチマークが飽和したことに対応し、数学・人文科学・自然科学を横断する 2,500 問の専門家設計ベンチマーク HLE を提案する。問題は LLM が正解できないことを事前検証した上で複数段階のレビューを経ており、最先端モデルでも 13.4% 以下の正解率にとどまる。モデルは誤答時も高確信度を示すため、キャリブレーション誤差も深刻である。
## 問題設定
- **入力**: 閉形式の学術問題(テキストのみ、またはテキスト+画像)
- **出力**: 正解率・キャリブレーション誤差による LLM 能力評価
- **課題**: 既存ベンチマーク(MMLU 等)の飽和——最先端モデルが 90% 超を達成し、能力の精密測定が困難
## 提案手法(データセット設計)
### 問題形式
- 2,500 問(多肢選択 24%、残りは完全一致型)
- マルチモーダル:約 14% が画像付き
- 100+ 科目(数学・物理・化学・生物・医学・コンピュータ科学・人文科学・言語学・古典 等)
### 収集プロセス
1. **LLM 難易度チェック**: 提出前に複数の最先端 LLM でテストし、正解できた問は除外(70,000 件超の試行を記録、約 13,000 問が LLM を詰まらせ専門家レビューへ進む)
2. **専門家レビュー(2 段階)**:
- 第 1 ラウンド:各問 1〜3 名の大学院レベル査読者がフィードバックを付け反復改善
- 第 2 ラウンド:オーガナイザーと専門査読者が承認
3. **公開後レビュー**: コミュニティフィードバック期間を設け誤りを修正
### 品質基準
- 精確・明確・検証可能・インターネット検索耐性
- 大学院レベルの専門知識または非常に具体的なトピックの知識が必要
- 完全な解説(rationale)を各問に添付
### 賞金プール
- 50 万ドル(上位 50 問に各 5,000 ドル、次位 500 問に各 500 ドル)
## 新規性
既存の難易度向上アプローチ(マルチモーダル対応・複数段階レビュー・専門家作問)を統合しつつ、MMLU 相当の広い科目カバレッジを維持する点が独自性。また、プライベートテストセットを保持することで公開ベンチマークへのオーバーフィッティングを継続的に検出できる設計になっている。
## 実験設定
- **評価対象**: 最先端の商用・オープンモデル(GPT-4o、Grok 2、Claude 3.5 Sonnet、Gemini 1.5 Pro、Gemini 2.0 Flash Thinking、o1、DeepSeek-R1、o3-mini 等)
- **評価プロンプト**: 推論過程と最終回答を明示的に分離する構造化プロンプト
- **採点**: o3-mini を審判として使用し、等価表記(小数⇔分数等)を考慮
- **キャリブレーション測定**: 0〜100% の確信度を回答と同時に要求し、RMS キャリブレーション誤差を算出
## 実験結果
**表 1: モデル別正解率とキャリブレーション誤差(テキスト+画像サブセット)**
| モデル | 正解率(%) ↑ | RMS キャリブレーション誤差(%) ↓ |
|---|---|---|
| GPT-4o | 2.7 | 89 |
| Grok 2 | 3.0 | 87 |
| Claude 3.5 Sonnet | 4.1 | 84 |
| Gemini 1.5 Pro | 4.6 | 88 |
| Gemini 2.0 Flash Thinking | 6.6 | 82 |
| o1 | 8.0 | 83 |
| DeepSeek-R1(テキストのみ)\* | 8.5 | 73 |
| o3-mini(high、テキストのみ)\* | 13.4 | 80 |
\* マルチモーダル非対応モデルはテキストのみのサブセットで評価
### トークン数
推論モデル(o1・DeepSeek-R1・Gemini 2.0 Flash Thinking)は非推論モデルより補完トークン数が大幅に多い(図 5)。科目別でも一貫して推論トークン数が増加し、精度向上には大量の推論時計算が必要なことを示している。
## 考察
- **低スコアの部分は設計上のもの**: 収集プロセスが LLM を正解させる問を除外するため正解率は低くなるが、推論ノイズにより非ゼロの正解率が残る。
- **飽和への展望**: AI 開発の急速な進歩を踏まえ、2025 年末までに 50% 超を達成するモデルが登場する可能性があると論文は述べている(論文執筆時点の予測)。
- **HLE の範囲**: HLE は閉形式の構造化学術問題を測るものであり、高スコアは専門知識を示すが、自律的研究能力や AGI を示すものではない。
- **品質への批判的言及**: FutureHouse は化学・生物問の約 30% が誤りである可能性を指摘している(参考文献 [47])。
## 強み / 弱点・課題
### 強み
- 世界的な専門家集団(50 か国・500+ 機関・約 1,000 名)による問題収集
- 多段階の厳格なレビュープロセス
- マルチモーダル・多科目対応
- プライベートテストセットによるオーバーフィッティング検出
- 自動採点可能な閉形式設計
### 弱点・課題
- FutureHouse の指摘(化学・生物問の約 30% に誤答可能性)など、個別の問題の質に懸念がある
- 閉形式設計のため、開放的な研究能力・創造的問題解決は評価できない
- 推論モデルが大量の補完トークンを使うため、評価コストが高い
- ベンチマークゲーミングのリスク(プライベートセットで対応策を講じているが完全ではない)
- 問題の難易度は「現時点の LLM を詰まらせる」基準で設計されており、将来のモデルには飽和する