プロトタイプ意味論 - yuuk1's Digital Garden

# プロトタイプ意味論 ## 定義プロトタイプ意味論（prototype semantics）は[[認知意味論]]を構成する代表的な下位理論である。カテゴリーの構成員には**典型的な例（プロトタイプ）と非典型的な例が存在し、典型度は連続的な勾配を持つ**と考える。カテゴリーのメンバーシップは必要十分条件の集合ではなく、プロトタイプからの距離で決まるという立場をとる。(Source: [[joisino-LLMと言葉の感じ方-2026]]) 人間はこの典型度を言語使用に反映させる。「鳥」という語を聞いてスズメやウグイスを想像するのに対し、ダチョウやペンギンは正式な鳥類でも「思っていた鳥と違う」と感じる。 ## 典型度の言語使用への影響 - 「神様、私の来世は鳥にしてください」→ダチョウに転生は裏切りと感じる。プロトタイプは小鳥または空を飛ぶ鳥。 - 「ペンギンって鳥なんだよ」は言われるが「ウグイスって鳥なんだよ」とはわざわざ言わない。非典型例ほど明示的なカテゴリー帰属表現が現れやすい。 ## LLM と人間のプロトタイプ認識の乖離 LeCun らのグループによる実証研究（ICLR 2026、[arXiv:2505.17117](https://arxiv.org/abs/2505.17117)）が、[[LLM意味表象]]におけるプロトタイプ認識の乖離を計測した。 ### 実験設計 - 人間：各鳥インスタンスへの典型度をアンケートでスコア化し順位付け。 - LLM：カテゴリー語の埋め込みと各インスタンス埋め込みのコサイン類似度で順位付け。 - 評価指標：スピアマン順位相関係数。 ### 結果 | モデル種別 | 人間との順位相関係数 | |-----------|-----------------| | word2vec（表現学習） | 0.3〜0.4 | | BERT（表現学習・トランスフォーマー） | 比較的高い | | 次トークン予測モデル（GPT 系等） | **0.15 以下** | | 高能力次トークン予測モデル | モデルサイズが上がるほど低下する傾向 | ### 乖離の原因仮説 1. **コーパスの頻度バイアス**: 非典型インスタンスほど明示的なカテゴリー帰属表現が多いため、埋め込みがカテゴリー語に近づく。 2. **訓練目的の不整合**: 次トークン予測の目的は表現を整えることでも人間感覚と整合させることでもない。高能力モデルは人間感覚に依存しなくても予測精度を達成できる。 ## 横断的知見 - 現時点では[[joisino-LLMと言葉の感じ方-2026]]の単一ソースのみのため横断的知見は限定的。追加ソースで更新予定。 ## 未解決の問い - 典型度の人間感覚と LLM 埋め込みを近づける訓練手法は何か。訓練データの多様化か、RLHF か、対照学習か。 - 同じカテゴリーでも人間集団内で典型度の感覚は異なる（文化・年齢・地域）。LLM の典型度はどの集団に最も近いか。 - プロトタイプ意味論に基づく LLM 評価ベンチマークは存在するか、または設計できるか。 ## 関連 - [[認知意味論]] — 上位フレームワーク - [[LLM意味表象]] — LLM の埋め込みと意味的処理 - [[joisino-LLMと言葉の感じ方-2026]] — 本概念の LLM 適用を解説した記事 ## 出典 - [[joisino-LLMと言葉の感じ方-2026]]（佐藤竜馬、2026-03-16） - 引用研究: LeCun+ ICLR 2026 *From Tokens to Thoughts* ([arXiv:2505.17117](https://arxiv.org/abs/2505.17117))