常见概念

马尔科夫决策过程(Markov DecisionProcess, MDP). 强化学习的数学基础和建模工具, 通常由状态空间, 动作空间, 奖励函数, 状态转移函数, 折扣率等组合.

马尔科夫性质(Markov Property). 马尔科夫性质指的是下一个状态仅依赖于当前的时刻下的状态和动作.

环境(Environment). 环境是一种比较宏观上的概念, 比如下棋游戏中整个棋盘与双方玩家都处于同一个环境中. 在每个时刻下环境都会有一个状态, 这个状态可以理解为对当前时刻环境的概括.

状态空间(State Space). 指所有可能存在的状态的集合, 通常用花体字 $\mathcal{S}$. 状态空间可以是离散的也可以是连续的, 可以是有限集合也可以是无限集合.

动作空间(Action Space). 动作是指智能体在当前状态下所做出的决策. 而动作空间则是指所有可能动作的集合$\mathcal{A}$.

奖励(Reward). 智能体在执行一个动作之后环境返回给智能体的一个数值. 奖励通常由我们自己定义的奖励函数来决定数值的大小.

状态转移(State Transition). 指智能体从当前 $t$ 时刻的状态 $s$ 转移到下一个状态 $s'$ 的过程. 这个过程可能是随机的, 并且强化学习通常都假设状态转移是随机的, 其随机性来自于环境本身. 这个过程可以用状态转移函数(State Transition Function)来描述:

$$ p_t(S'|s,a) = \mathbb{P}(S^{'}_{t+1} = s' | S_t=s, A_t = a) $$

在当前状态 $s$, 执行动作 $a$, 环境变成 $s'$ 的概率.

策略(Policy). 指如何通过观察到的状态做出决策, 即如何从动作空间中选取一个动作, 策略可以是确定性的也可以是随机性的. 而强化学习的目标就是训练一个策略函数. 在随机性策略中, 策略函数的输入会是状态 $s$ 和动作 $a$, 并告诉我们每个动作的概率值. 此时如果让策略函数 $\pi$ 来做出操作, 则会根据概率进行一个随机采样. 决定性策略则可以看做是随机性策略的一种特例, 即概率全部都集中在一种动作上.

轨迹(Trajectory). 在一个episode中所有状态 $s$, 动作 $a$ 和奖励 $r$ 的集合.

回报(Return). 回报由即时奖励和未来奖励组成, 强化学习的目标就是寻找一个策略函数可以使这个回报最大化, 被训练出来的策略就叫最优策略(Optimum Policy).

$$ G_{t} = R_t + R_{t+1} + R_{t+1} + \dots + R_{n} $$

折扣回报. 在MDP中通常会对未来的回报做个折扣率.

$$ G_{t} = R_t + \gamma \cdot R_{t+1} + \gamma^2 \cdot R_{t+1} + \dots + \gamma^{n-t} \cdot R_{n} $$

状态值(State Value)与贝尔曼方程(Bellman Equation)

首先, $G_{t}$ 可以被重写成:

$$ \begin{aligned} G_{t} &= R_{t+1} + \gamma \cdot R_{t+1} + \gamma^2 \cdot R_{t+1} + \dots \\ &= R_{t+1} + \gamma (\cdot R_{t+1} + \gamma \cdot R_{t+1} + \dots )\\ &= R_{t+1} + \gamma G_{t+1} \end{aligned} $$