2012 年 12月 1 日随笔档案 - finin

2012年12月1日

摘要：一、三种类型 1. 有监督学习 1) 给定输入，预测输出 2. 增强学习 1) 学习到一个序列，使最终的收益最大（下棋等） 3. 无监督学习 1) 发现输入的内部表示二、有监督学习的两种类型 1. 回归（拟合） 2. 分类三、增强学习 1. 在增强学习中，我们需要学习一个行为序列，但是唯一的有监督信号是最终的一个标量：回报值 2. 目标：每次选择一个行为都最大化最终的回报值 3. 增强学习是困难的，唯一的有监督信息（下棋输赢）提供不了太多的有用信息 4. 增强学习模型很难学习到百万级别的参数个数，一般几十个，最多上千四、无监督学习 1. 不仅仅是聚类，聚类... 阅读全文

posted @ 2012-12-01 22:44 finin 阅读(174) 评论(0) 推荐(0) 编辑