joisino-面白さ優先分類器-2025 - yuuk1's Digital Garden

# 面白さ優先分類器 Navigation: [[index]] | [[佐藤竜馬]] | [[面白さ優先分類]] > **出典**: 佐藤竜馬 (joisino)「[面白さ優先分類器](https://joisino.hatenablog.com/entry/eureka)」ジョイジョイジョイ、2025-08-28。 > arXiv: [Interesting First Classifiers](https://arxiv.org/abs/2508.19780) ## 概要既存の機械学習モデルの多くは予測精度を最大化することを目指すが、本稿では「面白さ」を優先する分類器 **EUREKA**(Exploring Unexpected Rules for Expanding Knowledge boundAries)を紹介する。テーブルデータを入力として、非自明・意外な分類ルールを自動で発見する設計である。 ## 問題設定入力はテーブルデータ(Pandas DataFrame 相当)で、最初の d 列が特徴量、最後の 1 列が予測ラベル。目標は「面白い・意外な分類ルールを自動で得ること」。従来の特徴選択・解釈性・説明可能性とは**目的が異なる** ——それらは精度最大化を軸とするため、面白くないルールを選びがちである。典型例: - **Occupancy Detection**(室内に人がいるか): 精度優先 → `Light >= 300`。面白さ優先 → `HumidityRatio`(湿度比)だけで 85% を達成。 - **成人判定**: 精度優先 → `age >= 18`(精度約 99%)。面白さ優先 → メールドメインでの分類。 - **抑うつ検出**: 精度優先 → ベックうつ病調査表スコア。面白い先行例 → 一人称代名詞(I/my/me/myself)の使用頻度(r ≈ 0.13、[[Rude+ 2004]]・[[Edwards+ 2017]])。 ## 手法: EUREKA ### LLM による一対比較特徴ランキング面白い特徴量の選択に LLM を活用する。複数の特徴量ペアを対象に「特徴 A だけからラベルを予測できることと、特徴 B だけから予測できること、どちらが面白いか」を LLM に問う。選ばれた回数の多い順に特徴をランキングする([[Shah+ JMLR 2018]] の手法がほぼ最適であることが証明済み)。 **一対比較を採用する理由**: 1. 絶対評価では問うたびに基準がずれ、たまたま甘い基準で評価された特徴が不当に選ばれる。 2. 多くの LLM は肯定方向にバイアスがかかっており、10 段階評価を使うと高スコアにタイが多発する。 3. 「どちらか」を強制することで、わずかな差を明示できる。 4. ブラックボックス API のみで実現できる。 ### 分類器の構築面白い上位 K 特徴(K=1, K=3 等)だけで分類器を訓練する。使用する分類器はロジスティック回帰や決定木など**解釈可能なもの**であれば何でもよい。 ## 実験結果 6 つのデータセットで従来の特徴選択手法(Group LASSO、ロジスティック回帰、Validation Selection)と比較した結果、EUREKA は一貫して従来手法と大きく異なる特徴を選ぶ: | データセット | 予測タスク | 従来法が選ぶ特徴 | EUREKA が選ぶ特徴 | |---|---|---|---| | Occupancy Detection | 室内に人がいるか | Light(光量) | HumidityRatio・Humidity | | Twin Papers | 論文の引用数 | 参考文献の長さ | タイトルにコロンが含まれるか | | Mammographic Mass | 乳房腫瘤の良悪性 | BI-RADS スコア(専門医診断) | Density・Age | | Breast Cancer Wisconsin | 乳がん良性/悪性 | Bare_nuclei | Marginal_adhesion | | Adult | 年収 5 万ドル超か | capital-gain | capital-loss | | Website Phishing | フィッシング詐欺か | SFH(フォーム処理状態) | popUpWindow | 精度評価では、ほぼすべてのデータセットで面白い特徴量 1 つだけでチャンスレートを超えるか、統計的に有意な当てはまりを示す(尤度比検定)。例外は Occupancy Detection の HumidityRatio のみで、2 番目の面白い特徴まで使えばチャンスレートを超える。注目例: - `capital-loss` によるロジスティック回帰は「損失が多いほど年収 5 万ドル超の確率が上がる」という反直観的ルールを発見した。背景: 年収の低い人はそもそも資産がないため大きなキャピタルロスが発生せず、大きなロスが生じているのは不動産等の資産を持つ高所得者のシグナルとなる。 - Twin Papers の「タイトルにコロンを含む方が引用されやすい」というルールは 17,000 件のテストデータでチャンスレートから約 2% 向上しており統計的に十分強力。 ## 疑似相関について得られた分類器は因果関係でなく相関を捉えるにすぎない(従来の分類器も同様)。ただし**面白さ目的では疑似相関も有益**である。例えばニコラスケイジの出演作数とプール溺死者数の相関([[Vigen 2015]])は明らかに偽だが、統計分析・因果分析の教科書で広く引用・活用されてきた。因果と混同しないよう注意する必要はあるが、疑似相関が面白い仮説の出発点になることは否定できない。 ## 著者・関連リンク - 著者: [[佐藤竜馬]](joisino) - arXiv: [Interesting First Classifiers, arXiv:2508.19780](https://arxiv.org/abs/2508.19780) - 英語版: [Data Processing Club](https://data-processing.club/eureka/) - Twitter/X: [@joisino_](https://x.com/joisino_) ## 関連概念 - [[面白さ優先分類]] — 本ソースで提案されたコアコンセプト - [[一対比較ランキング]] — 特徴量ランキングに使う手法 - [[好奇心駆動学習]] — 関連する broader テーマ(強化学習文脈) ## 出典 - 佐藤竜馬 (joisino)、「面白さ優先分類器」、ジョイジョイジョイ、2025-08-28、https://joisino.hatenablog.com/entry/eureka - arXiv:2508.19780 (Interesting First Classifiers) - Rude+ 2004; Edwards+ 2017 — 抑うつと一人称代名詞の相関研究 - Shah+ JMLR 2018 — 選ばれた回数によるランキングのほぼ最適性の証明 - Vigen 2015 — Spurious Correlations(疑似相関の書籍例)