时间差分学习
资料介绍:
时间差分学习(中文8300字,英文PDF)
如果必须将一个观点作为强化学习的核心和新概念,那么它无疑就是时间差分(TD)学习。TD学习是蒙特卡罗思想和规划的结合。与蒙特卡罗方法一样,TD方法可以直接从原始经验中学习,而无需建立环境动力学模型。与DP方法一样,TD方法部分地更新了估计值。 根据其他了解到的估计,无需等待最终结果(他们自举)。在强化学习理论中,TD、DP和蒙特卡罗方法之间的关系是一个反复出现的主题。 这一章是我们对它的探索的开始。在我们完成之前,我们将看到这些想法和方法相互融合,可以在许多方面结合在一起。尤其是在第一章 第七章介绍了n步算法,它提供了从TD到蒙特卡罗方法之间的桥梁,在第12章中,我们介绍了TD(λ)算法,它将它们无缝地结合在一起。
[资料来源:https://www.doc163.com]
[资料来源:http://doc163.com]