摘要: 摘要:本文主要谈到了对PHP开发中MVC开发模式的理解。 当用户通过url触发命令时,例如url=http://control.blog.sina.com.cn/admin/article/article_add,这意味着进入bolg项目中的admin.php文件,调用框架文件如ThinkPHP框架 阅读全文
posted @ 2016-05-31 09:16 YC_Yuan 阅读(458) 评论(0) 推荐(0) 编辑
摘要: PS:本文为阅读周志华《机器学习》笔记 介绍 任务与奖赏 我们如果要种西瓜,那要经过很多步骤后,才有可能种出一田好瓜,当然也有可能种出的瓜很差,或者直接给种死了。那么将种瓜的过程抽象出来,总结出一系列好的操作,归为种瓜策略,那么,这个过程,就是“增强学习”。 这是一个简单的图示,其中: 机器处于环境 阅读全文
posted @ 2016-05-31 09:15 YC_Yuan 阅读(2313) 评论(0) 推荐(0) 编辑
摘要: 探索与利用增强学习任务的最终奖赏是在多步动作之后才能观察到,于是我们先考虑最简单的情形:最大化单步奖赏,即仅考虑一步操作。不过,就算这样,强化学习仍与监督学习有显著不同,因为机器要通过尝试来发现各个动作产生的结果,而没有训练数据告诉机器应当做什么动作。简而言之:缺少标记; 想最大化单步奖赏要考虑两个 阅读全文
posted @ 2016-05-31 09:14 YC_Yuan 阅读(3055) 评论(0) 推荐(0) 编辑
摘要: (一) 这个算法是基于一个概率来对探索和利用进行折中:每次尝试时,以概率进行探索,即以均匀概率随机选取一个摇臂,以的概率进行利用,即以这个概率选择当前平均奖赏最高的摇臂(如有多个,则随机选取)。 其中:小k表示第k个摇臂。因为大K表示摇臂总数;n表示尝试的次数,vn表示第n次尝试的奖赏。 Qn的直观 阅读全文
posted @ 2016-05-31 09:12 YC_Yuan 阅读(4282) 评论(1) 推荐(0) 编辑