# スコアリング可能タスク ## 定義 スコアリング可能タスク(scorable task)とは、入力・出力・評価指標が機械判定可能なかたちで定義され、コードを実行するだけで品質スコア(スカラー値)が自動的に返ってくるタスクの総称である。ERA 論文(Aygün+ 2026)が提案した枠組みで、科学的ソフトウェア開発を「スコアを最大化するプログラムの探索」として定式化することで LLM +木探索による自動探索を可能にする。Kaggle コンペ・公開ベンチマーク(OpenProblems・CovidHub・GIFT-Eval)・カスタム評価コードがいずれも該当する。論文はこれを「経験的ソフトウェア(empirical software)」の核心特性として捉え、1998 年の密度汎関数理論・2013 年の分子動力学シミュレーション・2024 年のタンパク質構造予測(AlphaFold2)といった Nobel 賞受賞研究が経験的ソフトウェアで成立していると指摘する。(Source: §Introduction, §Overview of Scorable Tasks, [[@2026__Nature__An AI system to help scientists write expert-level empirical software]]) ## スコアリング可能タスクの成立条件 1. **機械判定可能な評価関数**: スコアをコード実行で自動計算できる(人手採点は不可) 2. **サンドボックス実行**: コードを隔離環境で安全に実行できる 3. **スカラー品質スコア**: 単一の数値で「良さ」が定量される(または多目標の線形結合) 4. **反復的探索が有意義**: 初期候補からの改善余地がある(ランダムサーチより体系的探索が有効) ERA が評価した具体例: | タスク | ベンチマーク | スコア | 適用領域 | |---|---|---|---| | scRNA-seq バッチ統合 | OpenProblems v2.0.0 | 総合スコア(13 指標平均) | バイオインフォマティクス | | COVID-19 入院予測 | CDC CovidHub | WIS(加重区間スコア、低いほど良い) | 公衆衛生 | | 時系列予測 | GIFT-Eval(28 データセット) | MASE | 汎用時系列 | | 衛星画像セグメンテーション | 非公開 | — | 地理空間 | | ゼブラフィッシュ神経活動予測 | ZAPBench | — | 神経科学 | | 難解数値積分 | 自作 | — | 数値解析 | | Kaggle コンペ(開発用) | 16 プレイグラウンドコンペ | リーダーボード百分位 | 汎用 ML | (Source: §Overview of Scorable Tasks, Supplementary Table S1, [[@2026__Nature__An AI system to help scientists write expert-level empirical software]]) ## 横断的知見 - (1 ソース目。複数ソースの突き合わせで見えた観察をここに蓄積する) ## 未解決の問い - スコアリング可能タスクの定義は AutoML の「超パラメータ最適化対象タスク」と概念的に重なるが、ERA の適用範囲(コード全体の書き換え、前処理・シミュレーション・ヒューリスティクスを含む)は明らかに広い。この範囲の拡張が実用上どこまで有意義か(自由度が広いほど探索空間が爆発的に大きくなる問題)。 - 多目標スコア(複数指標の加重和でない場合)・非連続スコア・不確実性を含むスコア(確率的評価関数)への対応はどうあるべきか。 - スコアリング可能タスクへの変換自体(タスクの形式化・評価関数の設計)がボトルネックになる場面が多いはず。「タスク定義の自動化」という上位問題は ERA の射程外か。 - 「真の科学的発見」(理論・因果推論・数学的証明)は経験的ソフトウェア最適化では捉えられない。この境界をどう定義し、ERA の成果がどこまで「発見」に寄与するかは現在の重要な未解決問いである。(Source: §Discussion, [[@2026__Nature__An AI system to help scientists write expert-level empirical software]]) ## 関連 - [[LLMドリブンコード探索]] — スコアリング可能タスクを具体的に解く技法 - [[コードLLM]] — コード生成に使われる LLM - [[@2026__Nature__An AI system to help scientists write expert-level empirical software]] — この概念の初出ソース ## 出典 - [[@2026__Nature__An AI system to help scientists write expert-level empirical software]] — scorable task の概念定義、6 タスクの適用例