Open Nav

时间差分学习

以下是资料介绍,如需要完整的请充值下载.
1.无需注册登录,支付后按照提示操作即可获取该资料.
2.资料以网页介绍的为准,下载后不会有水印.仅供学习参考之用.
   帮助中心
资料介绍:

时间差分学习(中文8300字,英文PDF)
如果必须将一个观点作为强化学习的核心和新概念,那么它无疑就是时间差分(TD)学习。TD学习是蒙特卡罗思想和规划的结合。与蒙特卡罗方法一样,TD方法可以直接从原始经验中学习,而无需建立环境动力学模型。与DP方法一样,TD方法部分地更新了估计值。 根据其他了解到的估计,无需等待最终结果(他们自举)。在强化学习理论中,TD、DP和蒙特卡罗方法之间的关系是一个反复出现的主题。 这一章是我们对它的探索的开始。在我们完成之前,我们将看到这些想法和方法相互融合,可以在许多方面结合在一起。尤其是在第一章 第七章介绍了n步算法,它提供了从TD到蒙特卡罗方法之间的桥梁,在第12章中,我们介绍了TD(λ)算法,它将它们无缝地结合在一起。
  [资料来源:https://www.doc163.com]

时间差分学习

 

[资料来源:http://doc163.com]

  • 关于资料
    提供的资料属本站所有,真实可靠,确保下载的内容与网页资料介绍一致.
  • 如何下载
    提供下载链接或发送至您的邮箱,资料可重复发送,若未收到请联系客服.
  • 疑难帮助
    下载后提供一定的帮助,收到资料后若有疑难问题,可联系客服提供帮助.
  • 关于服务
    确保下载的资料和介绍一致,如核实与资料介绍不符,可申请售后.
  • 资料仅供参考和学习交流之用,请勿做其他非法用途,转载必究,如有侵犯您的权利或有损您的利益,请联系本站,经查实我们会立即进行修正! 版权所有,严禁转载
    doc163.com Copyright © 2012-2024 苏ICP备2021029856号-4