摘要: PCA算法及其应用 1.主成分分析(PCA) 1.主成分分析(Principal Component Analysis,PCA) 是最常用的一种降维方法,通常用于高维数据集的探索与可视化,还可以用做数据压缩和预处理等。2.PCA可以把具有相关性的高维变量合成为线性无关的低维变量,称为主成分。主成分能 阅读全文
posted @ 2017-06-04 21:42 python-data-machine 阅读(2315) 评论(0) 推荐(0) 编辑
摘要: DBSCAN方法及应用 1.DBSCAN密度聚类简介 DBSCAN 算法是一种基于密度的聚类算法: 1.聚类的时候不需要预先指定簇的个数 2.最终的簇的个数不确定DBSCAN算法将数据点分为三类: 1.核心点:在半径Eps内含有超过MinPts数目的点。 2.边界点:在半径Eps内点的数量小于Min 阅读全文
posted @ 2017-06-04 21:11 python-data-machine 阅读(19380) 评论(2) 推荐(1) 编辑
摘要: K-means方法及其应用 1.K-means聚类算法简介: k-means算法以k为参数,把n个对象分成k个簇,使簇内具有较高的相似度,而簇间的相似度较低。主要处理过程包括: 1.随机选择k个点作为初始的聚类中心。 2.对于剩下的点,根据其与聚类中心的距离,将其归入最近的簇。 3.对每个簇,计算所 阅读全文
posted @ 2017-06-04 18:21 python-data-machine 阅读(2736) 评论(0) 推荐(0) 编辑
摘要: 无监督学习 1.无监督学习的目标: 利用无标签的数据学习数据的分布或数据与数据之间的关系被称为无监督学习。 1.有监督学习和无监督学习的最大区别在于数据是否有标签 2.无监督学习最常应用的场景是聚类(clustering)和降维(Dimension Reduction) 2.聚类(clusterin 阅读全文
posted @ 2017-06-04 16:35 python-data-machine 阅读(4753) 评论(0) 推荐(1) 编辑
摘要: sklearn库中的标准数据集与基本功能 下面我们详细介绍几个有代表性的数据集: 当然同学们也可以用sklearn机器学习函数来挖掘这些数据,看看可不可以捕捉到一些有趣的想象或者是发现: 波士顿房价数据集: 波士顿房价数据集包含506组数据,每条数据包含房屋以及房屋周围的详细信息。其中包含城镇犯罪率 阅读全文
posted @ 2017-06-04 15:07 python-data-machine 阅读(12427) 评论(0) 推荐(0) 编辑
摘要: sklearn库 sklearn是scikit-learn的简称,是一个基于Python的第三方模块。sklearn库集成了一些常用的机器学习方法,在进行机器学习任务时,并不需要实现算法,只需要简单的调用sklearn库中提供的模块就能完成大多数的机器学习任务。 sklearn库是在Numpy、Sc 阅读全文
posted @ 2017-06-04 11:59 python-data-machine 阅读(17268) 评论(0) 推荐(0) 编辑