导航菜单

马尔可夫决策过程

马尔可夫决策过程(MDP)概述

基本概念

马尔可夫决策过程是强化学习的基础数学模型,它描述了一个智能体在具有马尔可夫性质的环境中如何进行决策。 MDP由状态空间、动作空间、转移概率、奖励函数和折扣因子五个要素组成。

马尔可夫性质:下一个状态只依赖于当前状态和动作,与历史状态无关。

核心要素

1. 状态空间(S)

所有可能状态的集合

2. 动作空间(A)

智能体可以执行的所有可能动作的集合

3. 转移概率(P)

P(s'|s,a)表示在状态s下执行动作a后转移到状态s'的概率

4. 奖励函数(R)

R(s,a,s')表示在状态s下执行动作a后转移到状态s'获得的奖励

5. 折扣因子(γ)

用于平衡即时奖励和未来奖励的重要性,γ∈[0,1]

价值函数

状态价值函数 V(s)

表示从状态s开始,按照策略π执行动作所获得的期望累积奖励

V(s) = E[∑(γ^t * R_t) | s_0 = s]

动作价值函数 Q(s,a)

表示在状态s下执行动作a,然后按照策略π执行动作所获得的期望累积奖励

Q(s,a) = E[∑(γ^t * R_t) | s_0 = s, a_0 = a]

最优策略

最优策略π*是在所有可能策略中,能够获得最大期望累积奖励的策略。 对于每个状态s,最优策略选择能够获得最大动作价值函数的动作。

π*(s) = argmax_a Q*(s,a)