人工智能——一种现代方法读书笔记

2020-11-11

21:强化学习

在监督学习中，我们需要一个老师来告诉client如何行动。但是很多时候监督学习的老师是很贵的，比如我们希望智能体学会开直升飞机，谁能承担起请飞行员做数据标注的价钱呢？

我们智能体能够通过与环境交互，自主学习。比如：智能体经过一番操作使得直升机坠毁了，那么他下次开直升机的时候就应该明白有些操作是错误的。重复足够多次，他应该能把自己训练成为一个合格的直升机飞行员。

被动学习(Passive Learning)的策略$\pi(s)$是固定的，智能体处于状态$s$的时候只能执行动作$\pi(s)$。其任务是学习状态的效用，也就是效用函数$U^{\pi}(s)$，解释为当遵循策略$\pi(s)$时候$s$状态的回报的期望。

$U^{\pi}(s) = E[\sum_{t=0}^{\infty} \gamma^{t} R(s_t)|\pi, s_0=s]$

Direct Evaluation
直接效用估计的思想是状态$s$的效用是从改状态开始往后的期望总回报。实际上如果实验的次数足够多，我们只需要对其做平均就可以得到改状态之后效用的期望。

由于只有到实验结束才能得到反馈，所以$U^{\pi}(s)$需要通过归纳的方式进行定义：

$U^{\pi}(s) = R(s) + \gamma \sum_{s'} T(s,\pi(s),s')U^{\pi}(s')$

但是因为只有当实验结束的时候才能开始更新 $U^{\pi}(s)$ 所以收敛速度较慢。

ADP的提出是为了解决直接效用估计收敛慢的问题，思路是不断进行更新。比如一开始 $U^{\pi}(s)$ 的值都设置为0，然后迭代更新。

$U^{\pi}(s) \leftarrow (1-\alpha)U^{\pi}(s) + \alpha \cdot sample$

这样每一个状态都是学习的机会。

Temporal Difference Learning