報酬あり学習とも呼ばれる。 > 強化学習の目標は、環境 (environment)とのやり取りに基づいて性能を改善するシステムを開発することである。そうした システムはエージェント(agent)と呼ばれる。一般に、環境の現在の状態に関する情報には、いわ ゆる報酬(reward)信号も含まれる。このため、強化学習については「教師あり学習」に関連する分野と見なすことができる。ただし強化学習では、このフィードバックは正解のラベルや値ではなく、 「報酬」関数によって測定された行動の出来具合を数値化したものである。エージェントは環境との やり取りを通じて強化学習を使用することにより、一連の行動を学習できる。その報酬は、探索的な試行錯誤アプローチや熟考的プランニングを通じて最大化される [[📖Python機械学習プログラミング 達人データサイエンティストによる理論と実践]] p.6 > 強化学習とは、ある種の学習問題のクラスを指す言葉である。学習者はある環境のなかで行動を起こすエージェント、例えば、自律移動ロボットや動物個体が想定される。学習者は各時間ステップにおいて観測される状態から行動を決定する。ここで「状態」とは、学習システムにとっての外部からの入力であり、環境からの感覚入力や学習者の内部状態、あるいは、それらの組合せでもよい。実際に取った行動に対して環境から報酬あるいは罰が与えられるが、報酬の大きさは多くの場合、過去数ステップの行動系列に対して決定される。学習の目的は、ある時間長さにわたる報酬の重み和を最大化することである。 畝見達夫. "強化学習 (< 小特集>「最近の機械学習」)." 人工知能学会誌 9.6 (1994): 830-836. - 意思決定プロセス - 報酬系 - 一連のアクションを学習 --- [[[制御工学者のための強化学習入門]]]