热门搜索词：安卓APP MySQL Javaweb 三维建模机械手施工组织建筑结构单片机

时间差分学习

来源：doc163.com 资料编号：DC25023 文件类型：资料等级： %E8%B5%84%E6%96%99%E7%BC%96%E5%8F%B7%EF%BC%9ADC25023

以下是资料介绍,如需要完整的请充值下载.
1.无需注册登录,支付后按照提示操作即可获取该资料.
2.资料以网页介绍的为准,下载后不会有水印.仅供学习参考之用.
密惠保帮助中心

资料介绍：

时间差分学习(中文8300字,英文PDF)
如果必须将一个观点作为强化学习的核心和新概念，那么它无疑就是时间差分(TD)学习。TD学习是蒙特卡罗思想和规划的结合。与蒙特卡罗方法一样，TD方法可以直接从原始经验中学习，而无需建立环境动力学模型。与DP方法一样，TD方法部分地更新了估计值。根据其他了解到的估计，无需等待最终结果(他们自举)。在强化学习理论中，TD、DP和蒙特卡罗方法之间的关系是一个反复出现的主题。这一章是我们对它的探索的开始。在我们完成之前，我们将看到这些想法和方法相互融合，可以在许多方面结合在一起。尤其是在第一章第七章介绍了n步算法，它提供了从TD到蒙特卡罗方法之间的桥梁，在第12章中，我们介绍了TD(λ)算法，它将它们无缝地结合在一起。

[来源：http://Doc163.com]

以上是资料介绍,如需要完整的请充值下载

上一篇：HF97海洋声学实验中两种自由超参数稀疏信号处理的DOA估计方法的比较

下一篇：多尺度变换的目标检测

相关内容：

基于CSI的室内定位指纹识别：深度学习方法	上肢外骨骼的迭代学习控制
基于深度学习模型的命名实体识别研究进展	一种新的基于检测学习的自动调制分类方法
用眼睑闭合时间百分比检测术后警觉性下降	基于深度残差学习的图像识别
用于深度学习的进化神经自动机	从运动到线性时间增量结构
深度学习	学习用于视觉跟踪的多域卷积神经网络