# マルコフ決定過程 (MDP: Markov Decision Process)
[[強化学習]]における環境の定式化に用いられる確率モデル。
現在の状態と行動のみから次の状態と報酬の確率分布が決定される(マルコフ性)という仮定を置く。
## 構成要素
一般に、以下の組 $(S, A, P, R, \gamma)$ で定義される。
- $S$: 状態空間 (State space)
- $A$: 行動空間 (Action space)
- $P(s' \mid s, a)$: 状態遷移確率。状態 $s$ で行動 $a$ を取ったときに状態 $s'$ に遷移する確率。
- $R(s, a)$: 報酬関数。状態 $s$ で行動 $a$ を取ったときに得られる即時報酬。
- $\gamma \in [0, 1]$: 割引率 (Discount factor)。将来の報酬を現在価値に割り引くための係数。
## 関連
- [[部分観測マルコフ決定過程]] (POMDP)