# LLM評価 ## 定義 大規模言語モデル(LLM)の性能・能力・人間との整合を定量化する手法の総称。評価軸は「質問ソース(静的/ライブ)」と「評価指標(グラウンドトゥルース/人間嗜好)」の 2 軸に大別される。静的グラウンドトゥルース型(MMLU・HumanEval 等)が最も普及しているが、人間の嗜好との整合を評価するにはペアワイズ比較・クラウドソーシング等の手法が必要となる。(Source: [[@2024__arXiv__Chatbot Arena - An Open Platform for Evaluating LLMs by Human Preference]]) ### 評価手法の分類(Figure 1 準拠) | 質問ソース | 評価指標 | 例 | |---|---|---| | 静的 | グラウンドトゥルース | MMLU、HellaSwag、GSM-8K、HumanEval | | 静的 | 人間嗜好 | MT-Bench、AlpacaEval | | ライブ | グラウンドトゥルース | Codeforces 週次コンテスト | | ライブ | 人間嗜好 | **Chatbot Arena** | ### 静的ベンチマークの限界 1. **オープンエンド評価の困難**: 多肢選択・定型 QA は実世界の柔軟・対話的使用を捉えられない。 2. **テストセット汚染**: 静的なテストセットは時間とともに汚染されやすく信頼性が低下する。 3. **グラウンドトゥルースの不在**: 複雑なタスクでは正解が存在しないか、存在しても特定が困難。 4. **飽和(Saturation)**: 最先端モデルが 90% 超の正解率を達成すると、モデル間の能力差を識別できなくなる(例: MMLU に対する現在の最先端モデル)。(Source: [[@2025__arXiv__Humanity's Last Exam]]) ### 最前線ベンチマーク(Frontier Benchmark)の設計アプローチ 飽和問題に対応するためのベンチマーク設計方向(HLE が統合して採用): - **マルチモーダル対応**: テキスト+画像の問題を含める - **専門家による作問**: 教授・研究者・博士号取得者が担当 - **多段階レビュー**: LLM 難易度チェック → 専門家レビュー → 承認者最終確認 - **広い科目カバレッジ**: MMLU 同様に多科目をカバー(HLE は 100+ 科目) - **クローズドエンド設計**: 自動採点のための多肢選択・完全一致型回答 - **プライベートテストセット**: 公開セットへのオーバーフィッティング検出用に非公開セットを保持 (Source: [[@2025__arXiv__Humanity's Last Exam]]) ### 人間嗜好に基づく評価の手法 - **ペアワイズ比較**: 2 モデルの出力を並べてユーザーが好みを選ぶ(採用: Chatbot Arena)。絶対スコアより認知負荷が低く一致率が高い。 - **LLM-as-judge**: GPT-4 等の強い LLM を審判として使う自動評価(例: MT-Bench, AlpacaEval)。コスト低・再現性高だが、審判モデルのバイアスを引き継ぐ。 - **専門家評価**: 精度は高いがコストが大きく、スケールしにくい。 ### ランキング手法 - **Elo レーティング**: チェスで普及した逐次更新型ランキング。Chatbot Arena の初期版で採用されたが、統計的推定精度が BT モデルより劣るとして置き換えられた。 - **Bradley-Terry (BT) モデル**: ペアワイズ比較をロジスティックモデルで定式化し MLE で係数推定。サンドイッチ共分散行列で頑健な信頼区間を構成できる。Chatbot Arena で採用。 ## 横断的知見 - **静的クローズドエンド評価(グラウンドトゥルース型)とライブ人間嗜好評価は相補的**: Chatbot Arena([[@2024__arXiv__Chatbot Arena - An Open Platform for Evaluating LLMs by Human Preference]])は「ライブ×人間嗜好」の象限を埋め、HLE([[@2025__arXiv__Humanity's Last Exam]])は「静的×グラウンドトゥルース」の最難関極端を埋める。いずれも単独では不十分であり、LLM 能力の多面的測定には両アプローチが必要。(Source: [[@2024__arXiv__Chatbot Arena - An Open Platform for Evaluating LLMs by Human Preference]], [[@2025__arXiv__Humanity's Last Exam]]) - **ベンチマーク飽和は不可避であり、評価設計は常に時代と競争する**: MMLU は最先端モデルで 90% 超となり能力差を識別できなくなった。HLE も将来的には同様の飽和が予想される(論文自身が「これが最後の学術試験になるかもしれない」と述べつつ AGI の証明にはならないと釘を刺す)。ベンチマーク設計はモデル進化より速く難易度を更新し続ける必要がある。(Source: [[@2025__arXiv__Humanity's Last Exam]]) - **モデルの確信度とキャリブレーション**: HLE では全モデルが誤答時も高確信度を示し、RMS キャリブレーション誤差は 73〜89% に達した。これは Chatbot Arena が「人間がどちらを好むか」を測るのとは異なる次元の問題であり、モデルが「わからない」と言えるかどうかという能力のギャップを示している。(Source: [[@2025__arXiv__Humanity's Last Exam]]) - **クラウドソーシングの母集団バイアスは静的評価にも存在する**: Chatbot Arena はユーザーが研究者・愛好家中心であるバイアスを持つ。HLE の質問提供者も 50 か国・500+ 機関の専門家集団であり、一般ユーザーの使用パターンとは異なる「専門家フロンティア」を測っている。いずれも代表性の問題は残る。(Source: [[@2024__arXiv__Chatbot Arena - An Open Platform for Evaluating LLMs by Human Preference]], [[@2025__arXiv__Humanity's Last Exam]]) ## 未解決の問い - Chatbot Arena のユーザー分布の偏り(研究者・愛好家中心)が実世界の LLM 性能推定にどの程度バイアスを与えるか? - LLM-as-judge と人間評価の一致率の差はモデル進化とともにどう変化するか? - AIOps・SRE ドメイン特化の LLM 評価(障害対応能力・RCA 精度等)には、汎用の Chatbot Arena 型評価で十分か、ドメイン特化ベンチマークが必要か? - 能動サンプリングはモデル数が増大する(100+ モデル)シナリオでどこまでスケールするか? - HLE における専門家問題の質保証は十分か?FutureHouse の指摘(化学・生物問の約 30% 誤り)を踏まえ、ベンチマークの「正解性」をどう担保するか? - 最前線ベンチマーク(HLE 等)での高スコアは実際のどのような能力と相関するか、またどの能力と相関しないか? ## 関連 - [[Chatbot Arena]] — 人間嗜好型ライブ評価の代表実装 - [[LMSYS]] — Chatbot Arena 開発元 - [[Center for AI Safety]] — HLE 開発元 - [[Dan Hendrycks]] — HLE 上級著者・MMLU 設計者 - [[RCA評価設計]] — 根本原因分析タスクにおける LLM 評価の wiki 内関連概念 - `structures/` 内の関連 MOC: なし(今後追加予定) ## 出典 - [[@2024__arXiv__Chatbot Arena - An Open Platform for Evaluating LLMs by Human Preference]] - [[@2025__arXiv__Humanity's Last Exam]]