开始上强度了，Note8主要是在讲解MDP问题的解决方法，所以说要记住这个Note8围绕的是求解policy(状态到动作的映射)

Value Iteration

初步思路框架

首先想到的第一个方法就是评估每个状态的utility,之后用Bellman方程来求解Q*( s, a )，即最优Q值，在状态 s 执行动作 a后，再按最优策略能获得的期望折扣总奖励。最优Q值里面就带有了动作信息，从而求出最佳policy

Q^{*} (s, a) = s^{'} \sum T (s, a, s^{'}) [R (s, a, s^{'}) + γ U^{*} (s^{'})]

一定要注意的是，Bellman方程的适用范围只有最优解即带有* 的变量

实现过程

在这个过程之中，每个状态的utility是通过动态规划的思想逐步更新的，直到收敛到最优值U*(s) 在进行公式表达之前，需要定义 $U_{k} (s)$ 为从状态s出发，走k布所能获得的效用值

初始设定： $U_{0} (s)$ = 0,因为走0步不能或者任何奖励
迭代规则：

U_{k + 1} (s) \leftarrow a max s^{'} \sum T (s, a, s^{'}) [R (s, a, s^{'}) + γ U_{k} (s^{'})]

证明值迭代最终会收敛的过程省略，在原Note中有详细证明过程

Value Iteration示例

折扣因子γ = 0.5，最开始的初始状态所有状态的都是 $U_{0} (s)$ = 0，所以可以得到下面的表格

	cool	warm	overheated
$U_{0}$	0	0	0
第一轮迭代计算如下

U_{1} (cool) U_{1} (warm) U_{1} (overheated) = max {1 \cdot [1 + 0.5 \cdot 0], 0.5 \cdot [2 + 0.5 \cdot 0] + 0.5 \cdot [2 + 0.5 \cdot 0]} = max {1, 2} = 2 = max {0.5 \cdot [1 + 0.5 \cdot 0] + 0.5 \cdot [1 + 0.5 \cdot 0], 1 \cdot [- 10 + 0.5 \cdot 0]} = max {1, - 10} = 1 = max {} = 0

	cool	warm	overheated
$U_{0}$	0	0	0
$U_{1}$	2	1	0
再进行下一轮的时候和这一轮一模一样

U_{2} (cool) U_{2} (warm) U_{2} (overheated) = max {1 \cdot [1 + 0.5 \cdot 2], 0.5 \cdot [2 + 0.5 \cdot 2] + 0.5 \cdot [2 + 0.5 \cdot 1]} = max {2, 2.75} = 2.75 = max {0.5 \cdot [1 + 0.5 \cdot 2] + 0.5 \cdot [1 + 0.5 \cdot 1], 1 \cdot [- 10 + 0.5 \cdot 0]} = max {1.75, - 10} = 1.75 = max {} = 0

	cool	warm
$U_{0}$	0	0
$U_{1}$	2	1
$U_{2}$	2.75	1.75

这里对于公式里折扣的那一部分一定要理解清楚，再观察一遍迭代公式

U_{k + 1} (s) \leftarrow a max s^{'} \sum T (s, a, s^{'}) [R (s, a, s^{'}) + γ U_{k} (s^{'})]

其中 $U_{k} (s^{'})$ 这一部分并不是发生在 $U_{k + 1} (s)$ 前面的，可以根据状态变化看出来，s采取动作a变成了状态s’，在状态s时还有k+1步未走，到达状态s’后剩余k步，这里动态规划复用的是 $U_{k} (s^{'})$ 来表明下一时刻的未来价值。举个例子来说，在算 $U_{2} (coo l)$ 的时候，假设采取的动作的是slow, $U_{1} (coo l)$ 表示的是站在 $U_{2} (coo l)$ 的角度，下一步又回到了cool,从那一刻开始你还能再拿到的最佳期望收益，所以说 $U_{1}$ 不是已经发生的收益，而是未来的收益。我最开始只看例子误解了公式，因为折扣因子是和 $U_{1} (coo l)$ 相乘的，让我误以为原本意图是给过去的效用上折扣，实际上不是

Policy Extraction

这一步就到了我在value iteration中提及到的求完Q*( s, a )后提取最优策略既 $π^{*} (s)$ ，下面是公式

π^{*} (s) = ar g a max Q^{*} (s, a) = ar g a max s^{'} \sum T (s, a, s^{'}) [R (s, a, s^{'}) + γ U^{*} (s^{'})]

原文中的一句话值得斟酌一下，揭露了MDP与expectimax搜索树之间的关系，概率分支的出现正是因为MDP的随机环境，在ecpectimax里面可以用机会节点来表示

Storing only each U ∗ (s) means that we must recompute all necessary Q-values with the Bellman equation before applying argmax, equivalent to performing a depth-1 expectimax.

上述内容可以用下面的树来表达

  Expectimax搜索树
        s
       / \
   slow   fast        ← MAX（选动作）
     |       |
   chance  chance     ← 概率分支
     |       |
    s'      s'

Q-Value Iteration

这里就提及到了另外一种更直接地解决MDP问题的方法，就是不再计算状态的效用值了，直接来计算Q( s, a ),这样就直接用包含策略信息的Q值来求得policy,基本迭代思路还是和之前的大差不差

Q_{k + 1} (s, a) \leftarrow s^{'} \sum T (s, a, s^{'}) [R (s, a, s^{'}) + γ a^{'} max Q_{k} (s^{'}, a^{'})]

Q值迭代到最后也一定是收敛的，和Value Iteration的证明方法几乎一样。实际上，只要折扣因子 γ < 1, 那么iteration的结果到最后就会收敛。更新完Q*( s, a )后，直接用公式提取最优策略

π^{*} (s) = ar g a max Q^{*} (s, a)

Policy Iteration

问题引入

引入Policy Iteration的问题就是，如果用value iteration,其时间复杂度过高。value iteration共有三层循环，对每个状态 |S|, 对每个动作 |A|, 对每个下一状态 |S′|, 综合在一起时间复杂度就是 $O (∣ S ∣^{2} ∣ A ∣)$ 所以说为了避免大量的功夫浪费在value iteration的不断数值计算上，就着重于策略的改进

核心思想

固定一个策略 → 算这个策略的真实价值 → 用这个价值改进策略 → 重复直到策略不发生变化

实现过程

首先需要回顾一下Value Iteration中U的角标的含义，在这里 $U_{k}^{π} (s)$ 表示的是从状态s出发，一直采用策略 $π$ 走k步所能获得的效用值。在实现之前需要我们定义一个最初的policy,此时我们公式内容就不需要max了。核心公式如下

U^{π} (s) = s^{'} \sum T (s, π (s), s^{'}) [R (s, π (s), s^{'}) + γ U^{π} (s^{'})]

从本质上来说，这是一个方程组，因为每个状态包含一个未知数 $U^{π} (s)$ , 每个状态都只有一个等式，一共有s个方程，所以说可以一次性解出来所有的值。解出来真实价值之后，我们就到了第三步，就是用这个价值来改进策略，策略改进的公式如下

π_{i + 1} (s) = ar g a max s^{'} \sum T (s, a, s^{'}) [R (s, a, s^{'}) + γ U^{π_{i}} (s^{'})]

如何来判断当前policy是不是最好呢？

If π_{i + 1} = π_{i}, the algorithm has converged, and we can conclude that π_{i + 1} = π_{i} = π^{*} .

Policy Iteration示例

依旧是汽车这个图，首先初始化policy为总是slow

	cool	warm	overheated
$π_{0}$	slow	slow	-
我们进行第二部计算策略真实价值，套用公式可以得到方程组

U^{π_{0}} (cool) U^{π_{0}} (warm) = 1 \cdot [1 + 0.5 \cdot U^{π_{0}} (cool)] = 0.5 \cdot [1 + 0.5 \cdot U^{π_{0}} (cool)] + 0.5 \cdot [1 + 0.5 \cdot U^{π_{0}} (warm)]

解出结果可以得到策略真实价值

	cool	warm	overheated
$U^{π_{0}}$	2	2	0
然后进行第三步，用价值改变策略

π_{1} (cool) π_{1} (warm) = ar g max {slow : 1 \cdot [1 + 0.5 \cdot 2], fast : 0.5 \cdot [2 + 0.5 \cdot 2] + 0.5 \cdot [2 + 0.5 \cdot 2]} = ar g max {slow : 2, fast : 3} = fast = ar g max {slow : 0.5 \cdot [1 + 0.5 \cdot 2] + 0.5 \cdot [1 + 0.5 \cdot 2], fast : 1 \cdot [- 10 + 0.5 \cdot 0]} = ar g max {slow : 3, fast : - 10} = slow

重复上述步骤最终可以得到Policy最终收敛，迭代完毕

	cool	warm
$π_{0}$	slow	slow
$π_{1}$	fast	slow
$π_{2}$	fast	slow

imDwAaY's learning website

探索

Note8

Value Iteration

初步思路框架

实现过程

Value Iteration示例

Policy Extraction

Q-Value Iteration

Policy Iteration

问题引入

核心思想

实现过程

Policy Iteration示例

关系图谱

目录

反向链接