スコアリング可能タスク - yuuk1's Digital Garden

# スコアリング可能タスク ## 定義スコアリング可能タスク（scorable task）とは、入力・出力・評価指標が機械判定可能なかたちで定義され、コードを実行するだけで品質スコア（スカラー値）が自動的に返ってくるタスクの総称である。ERA 論文（Aygün+ 2026）が提案した枠組みで、科学的ソフトウェア開発を「スコアを最大化するプログラムの探索」として定式化することで LLM ＋木探索による自動探索を可能にする。Kaggle コンペ・公開ベンチマーク（OpenProblems・CovidHub・GIFT-Eval）・カスタム評価コードがいずれも該当する。論文はこれを「経験的ソフトウェア（empirical software）」の核心特性として捉え、1998 年の密度汎関数理論・2013 年の分子動力学シミュレーション・2024 年のタンパク質構造予測（AlphaFold2）といった Nobel 賞受賞研究が経験的ソフトウェアで成立していると指摘する。(Source: §Introduction, §Overview of Scorable Tasks, [[@2026__Nature__An AI system to help scientists write expert-level empirical software]]) ## スコアリング可能タスクの成立条件 1. **機械判定可能な評価関数**: スコアをコード実行で自動計算できる（人手採点は不可） 2. **サンドボックス実行**: コードを隔離環境で安全に実行できる 3. **スカラー品質スコア**: 単一の数値で「良さ」が定量される（または多目標の線形結合） 4. **反復的探索が有意義**: 初期候補からの改善余地がある（ランダムサーチより体系的探索が有効） ERA が評価した具体例： | タスク | ベンチマーク | スコア | 適用領域 | |---|---|---|---| | scRNA-seq バッチ統合 | OpenProblems v2.0.0 | 総合スコア（13 指標平均） | バイオインフォマティクス | | COVID-19 入院予測 | CDC CovidHub | WIS（加重区間スコア、低いほど良い） | 公衆衛生 | | 時系列予測 | GIFT-Eval（28 データセット） | MASE | 汎用時系列 | | 衛星画像セグメンテーション | 非公開 | — | 地理空間 | | ゼブラフィッシュ神経活動予測 | ZAPBench | — | 神経科学 | | 難解数値積分 | 自作 | — | 数値解析 | | Kaggle コンペ（開発用） | 16 プレイグラウンドコンペ | リーダーボード百分位 | 汎用 ML | (Source: §Overview of Scorable Tasks, Supplementary Table S1, [[@2026__Nature__An AI system to help scientists write expert-level empirical software]]) ## 横断的知見 - （1 ソース目。複数ソースの突き合わせで見えた観察をここに蓄積する） ## 未解決の問い - スコアリング可能タスクの定義は AutoML の「超パラメータ最適化対象タスク」と概念的に重なるが、ERA の適用範囲（コード全体の書き換え、前処理・シミュレーション・ヒューリスティクスを含む）は明らかに広い。この範囲の拡張が実用上どこまで有意義か（自由度が広いほど探索空間が爆発的に大きくなる問題）。 - 多目標スコア（複数指標の加重和でない場合）・非連続スコア・不確実性を含むスコア（確率的評価関数）への対応はどうあるべきか。 - スコアリング可能タスクへの変換自体（タスクの形式化・評価関数の設計）がボトルネックになる場面が多いはず。「タスク定義の自動化」という上位問題は ERA の射程外か。 - 「真の科学的発見」（理論・因果推論・数学的証明）は経験的ソフトウェア最適化では捉えられない。この境界をどう定義し、ERA の成果がどこまで「発見」に寄与するかは現在の重要な未解決問いである。(Source: §Discussion, [[@2026__Nature__An AI system to help scientists write expert-level empirical software]]) ## 関連 - [[LLMドリブンコード探索]] — スコアリング可能タスクを具体的に解く技法 - [[コードLLM]] — コード生成に使われる LLM - [[@2026__Nature__An AI system to help scientists write expert-level empirical software]] — この概念の初出ソース ## 出典 - [[@2026__Nature__An AI system to help scientists write expert-level empirical software]] — scorable task の概念定義、6 タスクの適用例