好奇心駆動学習 - yuuk1's Digital Garden

# 好奇心駆動学習 Navigation: [[index]] | [[面白さ優先分類]] ## 定義好奇心駆動学習(curiosity-driven learning)とは、予測誤差・新規性・情報利得など**内発的報酬(intrinsic reward)**を目的関数に加えることで、エージェントが環境を積極的に探索し、未知の状態・知識を習得する学習パラダイムである。強化学習の文脈では、タスク固有の外的報酬(extrinsic reward)が疎(sparse)または遅延している場合に特に有効とされる。代表的な内発的報酬の定式化: - **予測誤差ベース**: 次状態の予測モデルの誤差が大きいほど報酬が高い(Pathak+ ICML 2017、ICM モジュール)。 - **カウントベース**: 訪問回数が少ない状態に高い報酬を与える。 - **情報利得ベース**: ベイズ的に不確かさを測り、それを最小化する探索を促す。 - **RND(Random Network Distillation)**: ランダム固定ネットワークの出力と訓練ネットワークの出力の差を内発的報酬とする(Burda+ 2018)。 ## 面白さ優先分類との関係 [[面白さ優先分類]] の EUREKA は強化学習ではなく教師あり分類の文脈だが、**「自明でない・予測困難な関係を優先して発見する」という思想が共通する**。強化学習の好奇心駆動探索が「予測が難しい状態遷移を積極的に訪問する」のに対し、EUREKA は「LLM が『意外だ』と判定する特徴量を積極的に選択する」という構造的な類似を持つ。どちらも「驚き(surprise)の最大化」が動機となる点で共通する。ただし根本的な違いもある: 好奇心駆動学習は**プロセス**(探索行動)を対象とするが、EUREKA は**結果**(分類ルールの選択)を対象とする。(Source: [[joisino-面白さ優先分類器-2025]]) ## 横断的知見 > [!note] 現時点で直接言及するソースは [[joisino-面白さ優先分類器-2025]] の関連参照のみ。追記は関連論文 ingest 時に行う。 - 「面白さ」を目的とする分類器設計は、強化学習の好奇心駆動探索と目的関数レベルで類似しているが、適用ドメイン(教師あり分類 vs. 強化学習)が異なる。「面白さの最大化」を教師あり学習のメタ目的として据えた EUREKA は、好奇心駆動学習の分類タスクへの移植例と解釈できる。(Source: [[joisino-面白さ優先分類器-2025]]) ## 未解決の問い - 好奇心駆動探索と面白さ優先特徴選択を統合した能動学習フレームワークは成立するか? - 「意外さ(surprise)」を情報理論的に形式化した場合(例: 自己情報量、予測誤差)と LLM が判定する「面白さ」はどの程度一致するか? - 好奇心駆動 RL エージェントが発見した遷移規則と面白さ優先分類器が発見したルールを同じ「意外性スコア」で比較できるか? ## 関連 - [[面白さ優先分類]] — 教師あり分類文脈での類似コンセプト - [[joisino-面白さ優先分類器-2025]] — 面白さ優先分類を初めて体系化したソース ## 出典 - 佐藤竜馬 (joisino)、「面白さ優先分類器」、ジョイジョイジョイ、2025-08-28(関連コンセプトとして言及) - Pathak, D. et al., "Curiosity-driven Exploration by Self-Supervised Prediction", ICML 2017 - Burda, Y. et al., "Exploration by Random Network Distillation", ICLR 2019