2018 年 8月 12 日随笔档案 - 张博的博客

2018年8月12日

摘要： 1. pip install gym 可以看到，增强学习和监督学习的区别主要有以下两点： 1. 增强学习是试错学习(Trail-and-error)，由于没有直接的指导信息，智能体要以不断与环境进行交互，通过试错的方式来获得最佳策略。 2. 延迟回报，增强学习的指导信息很少，而且往往是在事后（最后一阅读全文

posted @ 2018-08-12 20:06 张博的博客阅读(247) 评论(0) 推荐(0) 编辑

张博的博客

导航