21:强化学习
21.1 介绍
在监督学习中,我们需要一个老师来告诉client如何行动。但是很多时候监督学习的老师是很贵的,比如我们希望智能体学会开直升飞机,谁能承担起请飞行员做数据标注的价钱呢?
我们智能体能够通过与环境交互,自主学习。比如:智能体经过一番操作使得直升机坠毁了,那么他下次开直升机的时候就应该明白有些操作是错误的。重复足够多次,他应该能把自己训练成为一个合格的直升机飞行员。
21.2 被动强化学习
被动学习(Passive Learning)的策略$\pi(s)$是固定的,智能体处于状态$s$的时候只能执行动作$\pi(s)$。其任务是学习状态的效用,也就是效用函数$U^{\pi}(s)$,解释为当遵循策略$\pi(s)$时候$s$状态的回报的期望。
21.2.1 直接效用估计
Direct Evaluation
直接效用估计的思想是状态$s$的效用是从改状态开始往后的期望总回报。实际上如果实验的次数足够多,我们只需要对其做平均就可以得到改状态之后效用的期望。
由于只有到实验结束才能得到反馈,所以$U^{\pi}(s)$需要通过归纳的方式进行定义:
但是因为只有当实验结束的时候才能开始更新 $U^{\pi}(s)$ 所以收敛速度较慢。
21.2.2 自适应动态规划
ADP的提出是为了解决直接效用估计收敛慢的问题,思路是不断进行更新。比如一开始 $U^{\pi}(s)$ 的值都设置为0,然后迭代更新。
这样每一个状态都是学习的机会。
21.2.3 时序差分学习
Temporal Difference Learning