摘要: 1、聚类是一种无监督学习,他讲相似的对象放到同一簇下,有点像自动分类。聚类方法几乎可以用到任何对象上,簇内的对象越相似,聚类结果就越好。 2、K均值聚类的优点 算法简单容易实现 缺点: 可能收敛到局部最小值,在大规模数据上收敛速度较慢 3、K-均值算法算法流程以及伪代码 首先随机选择k个初始点作为质 阅读全文
posted @ 2017-03-16 22:51 罐装可乐 阅读(921) 评论(0) 推荐(0) 编辑
摘要: 对一个学习算法除了通过实验估计其泛化性能,还需要更好的了解泛化能力的原因,偏差-方差分解时解释算法泛化性能的一种重要的工具。 对于测试样本x,令yD为x在数据集中的标记(可能存在噪声导致标记值和真实值不同),y为x的真实值,f(x;D)在训练集D上学得模型f在x上的输出。以回归任务为例: 学习算法的 阅读全文
posted @ 2017-03-16 20:23 罐装可乐 阅读(10260) 评论(0) 推荐(0) 编辑
摘要: 1、主要内容 介绍随机森林的算法原理以及推导过程 2、bagging思想 bagging思想通过对样本的重复又放回的抽样得到M个不同的训练数据集,然后对每一份训练数据都训练出一个算法,最后使用blending思想进行组合可以采用uniform blending平均每个结果也可以采用加权blendin 阅读全文
posted @ 2017-03-16 16:24 罐装可乐 阅读(798) 评论(0) 推荐(0) 编辑
摘要: 宽度优先搜索 1、二叉树的序列化和反序列化 在序列化过程中使用数据存储后然后从前往后依次访问子节点,避免使用栈,相当于是利用数据模仿栈的功能,同时空节点也进入数组,但是在访问时需要跳过节点为空的,这样就完成了二叉树的序列化。在反序列化时,使用一个栈存储已经生成的二叉树结构,每次生成新的节点时加到队列 阅读全文
posted @ 2017-03-16 10:12 罐装可乐 阅读(263) 评论(0) 推荐(0) 编辑