【无模型预测】Deep Mind× UCL 2021年强化学习课程第5讲 由qxiao创建,最终由qxiao更新于2024-05-20 02:09 被浏览 212 用户第五讲:无模型预测 研究科学家Hado van Hasselt对无模型预测及其与蒙特卡罗和时域差分算法的关系进行了更深入的研究。 https://www.youtube.com/watch?v=eaWfWoVUTEw /wiki/static/upload/1e/1e55c2f6-dbdd-47e6-9e43-0d9ebcca130a.pdf \