部分観測マルコフ決定過程 - yuuk1's Digital Garden

# 部分観測マルコフ決定過程 (POMDP) [[マルコフ決定過程]]（MDP）を拡張し、エージェントが環境の真の状態を直接観測できない（部分的にしか観測できない）状況をモデル化したもの。 ## 構成要素 MDPの要素 $(S, A, P, R, \gamma)$ に加えて、以下の要素を持つ組 $(S, A, P, R, \Omega, O, \gamma)$ で定義される。 - $\Omega$: 観測空間 (Observation space) - $O(o \mid s', a)$: 観測確率。行動 $a$ を取って状態が $s'$ に遷移した結果として、観測 $o$ が得られる確率。 ## 特徴エージェントは真の状態 $s$ ではなく、過去の行動と観測の履歴（あるいはそこから計算される信念状態：Belief state）に基づいて次の行動を決定する必要がある。現実世界の多くの問題（センサーのノイズ、不完全な情報など）をより正確にモデル化できるが、MDPと比較して計算複雑性が著しく高くなる。 ## 関連 - [[マルコフ決定過程]] (MDP)