摘要: 最近刚把《机器学习实战》中的决策树过了一遍,接下来通过书中的实例,来温习决策树构造算法中的ID3算法。 海洋生物数据: 转换成数据集: 一、基础知识 1、熵 我把它简单的理解为用来度量数据的无序程度。数据越有序,熵值越低;数据越混乱或者分散,熵值越高。所以数据集分类后标签越统一,熵越低;标签越分散, 阅读全文
posted @ 2018-06-13 14:53 vegavi 阅读(1302) 评论(0) 推荐(0) 编辑
摘要: 一、kNN(k-nearest neighbor)算法原理 事物都遵循物以类聚的思想,即有相同特性的事物在特征空间分布上会靠得更近,所以kNN的思路是:一个样本在特征空间中k个靠的最近的样本中,大多数属于某个类别,这个样本就属于某个类别。 如图所示,蓝色方框和橙色三角分别代表不同的类别,此时来了一个 阅读全文
posted @ 2018-06-04 17:30 vegavi 阅读(521) 评论(0) 推荐(0) 编辑