# 自動査読 ## 定義 LLMエージェントが学術論文に対して人間の査読者と同様の評価(数値スコア・強み弱みリスト・採択/却下判定)を自動生成するシステム。AI研究自動化の品質評価インフラとして機能する。(Source: [[@2026__Nature__Towards end-to-end automation of AI research]]) ## 代表実装: The Automated Reviewer (Sakana AI, 2026) NeurIPS 査読ガイドラインに基づき OpenAI o4-mini が論文 PDF を処理する。 ### パイプライン 1. 論文 PDF を読み込み、構造化 JSON レスポンスを生成する - 数値スコア: 健全性(soundness)・発表(presentation)・貢献(contribution)・全体(overall, 1〜10)・信頼度(confidence) - 強みリスト・弱みリスト・質問 - 予備的な採択/却下判定 2. 5 件の独立レビューを生成し、アンサンブルする 3. LLMがエリアチェアとして全5レビューを統合したメタレビューを生成し、最終採否を決定する ### 性能(ICLR の OpenReview データセットで評価) | 査読者 | 均衡精度 | F1 スコア | AUC | |------|------|------|------| | 人間(NeurIPS 2021) | 0.66 | 0.49 | 0.65 | | Automated Reviewer (2017–2024) | **0.69 ± 0.04** | **0.62 ± 0.09** | 0.69 ± 0.09 | | Automated Reviewer (2025, カットオフ後) | 0.66 ± 0.03 | 0.67 ± 0.09 | 0.65 ± 0.10 | 均衡精度では人間と同等〜やや上回り、F1 スコアでは有意に上回る。知識カットオフ後(2025)でも人間と同等の精度を維持し、データ汚染の影響は軽微。(Source: [[@2026__Nature__Towards end-to-end automation of AI research]]) ## 横断的知見 - 5-run アンサンブル + メタレビューの構成が人間のレビュアー間一致(F1=0.49)を有意に上回るF1=0.62を達成している。アンサンブル方式が単一LLMよりも堅牢な評価をもたらすことを実証した。(Source: [[@2026__Nature__Towards end-to-end automation of AI research]]) ## 未解決の問い - 機械学習以外のドメイン(医学・物理・化学)での汎化は?査読ガイドラインのドメイン依存性が大きいため、単純移植はできない可能性がある - 自動査読の悪用(AIによる大量投稿と自動採択の循環)をどう防ぐか? - 人間の査読品質のばらつき(NeurIPS 2021実験でF1=0.49)は自動査読者の上限を設けるか、それとも改善の余地があるか? ## 関連 - [[AI研究自動化]] — 自動査読は研究自動化パイプラインの評価インフラとして機能する - [[エージェント型科学探索]] — 生成論文の品質評価に自動査読者を利用する ## 出典 - [[@2026__Nature__Towards end-to-end automation of AI research]] — The Automated Reviewer の詳細設計と性能評価。Nature 651, 2026。