摘要: RL原理:先尝试做出一些行为,得到一个结果,通过判断这个结果是对是错来对之前的行为进行反馈与supervised learning 的区别主要是:1. RL没有label指导在什么情况下做出什么样的行为,只有一个作出一系列行为后最终反馈回来的reward signal, 并通过这个signal判断这 阅读全文
posted @ 2017-07-28 16:39 笙玄羽 阅读(333) 评论(0) 推荐(0) 编辑