2017 年 7月 28 日随笔档案 - 笙玄羽

2017年7月28日

摘要： RL原理：先尝试做出一些行为，得到一个结果，通过判断这个结果是对是错来对之前的行为进行反馈与supervised learning 的区别主要是：1. RL没有label指导在什么情况下做出什么样的行为，只有一个作出一系列行为后最终反馈回来的reward signal，并通过这个signal判断这阅读全文

posted @ 2017-07-28 16:39 笙玄羽阅读(333) 评论(0) 推荐(0) 编辑

笙玄羽Adrian

公告