2018年8月12日

摘要: 1. pip install gym 可以看到,增强学习和监督学习的区别主要有以下两点: 1. 增强学习是试错学习(Trail-and-error),由于没有直接的指导信息,智能体要以不断与环境进行交互,通过试错的方式来获得最佳策略。 2. 延迟回报,增强学习的指导信息很少,而且往往是在事后(最后一 阅读全文
posted @ 2018-08-12 20:06 张博的博客 阅读(247) 评论(0) 推荐(0) 编辑

导航