AI量化知识树

【多步骤和关闭策略】Deep Mind× UCL 2021年强化学习课程第11讲

由qxiao创建，最终由qxiao更新于2024-05-20 02:09 被浏览 100 用户

第11讲:多步骤和间歇政策研究科学家Hado van Hasselt讨论了多步和关闭策略算法，包括各种减少方差的技术。

https://www.youtube.com/watch?v=u84MFu1nG4g

/wiki/static/upload/45/4576a257-3738-45ba-871f-e770551f83bf.pdf

\

{link}