面白さ優先分類 - yuuk1's Digital Garden

# 面白さ優先分類 Navigation: [[index]] | [[joisino-面白さ優先分類器-2025]] ## 定義面白さ優先分類(Interesting First Classification)とは、予測精度の最大化でなく**分類ルールの非自明性・意外性**を目的関数とした分類器設計の方針である。[[佐藤竜馬]] が提案した手法 **EUREKA**(Exploring Unexpected Rules for Expanding Knowledge boundAries)で具体化されており、LLM の一対比較で「面白い」特徴量をランキングし、上位 K 特徴だけで解釈可能な分類器を構築する。(Source: [[joisino-面白さ優先分類器-2025]]) **面白い分類ルール**とは、「誰でも思いつく自明な特徴量」でなく、「言われてみればできる気もするし、できない気もするし」という絶妙な非自明性を持ちながら、それでもチャンスレートを超える有意な精度を達成するルールを指す。 ### 特徴選択手法 (EUREKA) の概要 1. **特徴量ペアを対象に LLM へ一対比較を問う**: 「特徴 A だけからラベルを予測できることと、特徴 B だけから予測できること、どちらが面白いか」を問い、選ばれた回数の多い順にランキング([[Shah+ JMLR 2018]] がほぼ最適と証明)。 2. **上位 K 特徴のみで分類器を訓練**: ロジスティック回帰・決定木など解釈可能なモデルを使う。 3. **精度検証**: 尤度比検定で有意性を確認。チャンスレート超えを目標とするが、必須ではない。 ## 横断的知見 > [!note] 現時点でのソースは [[joisino-面白さ優先分類器-2025]] の 1 本のみ。複数ソースが揃い次第ここに追記する。 - **精度と面白さのトレードオフは予想より小さい**: Occupancy Detection・Twin Papers・Breast Cancer Wisconsin・Adult・Website Phishing の 5 / 6 データセットで面白い特徴量 1 つだけでもチャンスレートを超えた。「面白さ」と「有意性」は意外に共存しやすい。(Source: [[joisino-面白さ優先分類器-2025]]) - **面白さ優先は特徴選択・解釈性・説明可能性の研究と目的が根本的に異なる**: 特徴選択は精度を最大化する特徴を探す。EUREKA はあえて精度の低い「面白い」特徴を選ぶ。解釈可能で精度が高いことと、解釈可能で面白いことは別の概念軸である。(Source: [[joisino-面白さ優先分類器-2025]]) - **疑似相関も面白さ目的では有益**: ニコラスケイジの出演数とプール溺死者数の相関のように、偽の相関であっても「面白さ」があれば教科書や仮説生成に繰り返し利用される。因果ではなく相関として扱えば問題ない。(Source: [[joisino-面白さ優先分類器-2025]]) - **反直観的ルールが意味のある洞察を生む例**: Adult データセットで `capital-loss` を用いた回帰が「損失が多いほど高年収」という一見逆説的なルールを発見した。背景(低所得者には売却できる資産がない)を踏まえると非自明ながら合理的な説明がつく。(Source: [[joisino-面白さ優先分類器-2025]]) ## 未解決の問い - 「面白さ」の人間評価との一致度はどの程度か? LLM が判定する「面白さ」は人間の直観と一致するのか、系統的にずれる領域があるか。 - 面白さと有用性(例: 安価なセンサへの代替可能性)の関係は? 湿度計で在室判定できることの実用的な価値を定量化できるか。 - 面白さランキングに使う LLM のモデルサイズ・種類による差はどの程度か? - 面白さ優先分類は因果発見(causal discovery)と組み合わせられるか? 面白い相関を起点に因果分析へ進む系統的なワークフローは成立するか。 - LLM に依存しない面白さ尺度は構築可能か? 情報理論・複雑性理論から「意外性」を形式化した研究([[アルゴリズム情報理論]]・Kolmogorov 複雑性等)との接続。 ## 関連 - [[一対比較ランキング]] — EUREKA の特徴量評価に使う手法 - [[好奇心駆動学習]] — 強化学習文脈で「新規性」を目的関数とする関連研究群 - [[佐藤竜馬]] — 提案者 - [[joisino-面白さ優先分類器-2025]] — 一次ソース ## 出典 - 佐藤竜馬 (joisino)、「面白さ優先分類器」、ジョイジョイジョイ、2025-08-28、https://joisino.hatenablog.com/entry/eureka - arXiv:2508.19780 (Interesting First Classifiers)