上一页 1 ··· 12 13 14 15 16 17 18 19 20 ··· 25 下一页
摘要: 奇异值分解是一个有着很明显的物理意义的一种方法,它可以将一个比较复杂的矩阵用更小更简单的几个子矩阵的相乘来表示,这些小矩阵描述的是矩阵的重要的特性。 特征值分解和奇异值分解两者有着很紧密的关系,特征值分解和奇异值分解的目的都是一样,就是提取出一个矩阵最重要的特征。先谈谈特征值分解吧:1 特征值:如果 阅读全文
posted @ 2018-07-24 09:59 我们都是大好青年 阅读(302) 评论(0) 推荐(0) 编辑
摘要: 第一种降维方法称为主成分分析(PCA)。在PCA中,数据从原来的坐标系转换到了新的坐标系,新坐标系的选择是由数据本身决定的。第一个新坐标轴选择的是原始数据中方差做大的方向,第二个新坐标轴的选择和第一个坐标轴正交且具有最大方差的方向。该过程一直重复,重复次数为原始数据中特征的数目。我们会发现,大部分方 阅读全文
posted @ 2018-07-23 21:51 我们都是大好青年 阅读(1133) 评论(0) 推荐(0) 编辑
摘要: 频繁项集发现算法FP-grouth,它基于Apriori构建,但在完成相同任务时采用了一些不同的技术,这里的任务是将数据集存储在一个特定的称作FP树的结构之后发现频繁项集或者频繁项对,即常在一块出现的元素项的集合FP树,这种做法的执行速度要快于Apriori,通常性能要好俩个数量级以上。该方法虽然能 阅读全文
posted @ 2018-07-23 21:35 我们都是大好青年 阅读(1251) 评论(0) 推荐(0) 编辑
摘要: Aprior算法 优点:易编码实现 缺点:在大数据集上可能较慢 适用数据类型:数值型或者标称型数据。 关联分析是一种在大规模数据集中寻找有趣关系的任务,这些关系可以有两种形式:频繁项集或者这关联规则。 频繁项集是经常出现在一块的物品集合,关联规则暗示两种物品之间可能存在很强的关系。 一个项集的支持度 阅读全文
posted @ 2018-07-23 21:09 我们都是大好青年 阅读(467) 评论(0) 推荐(0) 编辑
摘要: 一种用于度量聚类效果的指标使SSE(误差平方和),SSE值越小表示数据点越接近于他们的质心,聚类效果也越好。因为对误差取了平方,因此更加重视那些远离中心的点。一种肯定可以降低SSE值的方法是增加簇的个数,但这违背了聚类的目标。聚类的目标是在保持簇数目不变的情况下提高簇的质量 二分 K-均值算法 为克 阅读全文
posted @ 2018-07-23 20:31 我们都是大好青年 阅读(157) 评论(0) 推荐(0) 编辑
摘要: 决策树不断将数据切分成小数据集,直到所有目标变量完全相同,或者数据不能再切分为止,决策时是一种贪心算法,它要在给定的时间内做出最佳选择,但并不关心能否达到最优 树回归 优点:可以对复杂和非线性的数据建模 缺点:结果不易理解 适用数据类型:数值型和标称型数据 实现CART算法和回归树,回归树和分类树的 阅读全文
posted @ 2018-07-23 18:08 我们都是大好青年 阅读(189) 评论(0) 推荐(0) 编辑
摘要: 线性回归优点:结果易于理解,计算上不复杂缺点:对非线性的数据拟合不好适用数据类型:数值型和标称型数据horse=0.0015*annualSalary-0.99*hoursListeningToPulicRadio这就是所谓的回归方程,其中的0.0015和-0.99称作回归系数,求这些回归系数的过程 阅读全文
posted @ 2018-07-23 17:35 我们都是大好青年 阅读(618) 评论(0) 推荐(0) 编辑
摘要: 元算法是对其他算法进行组合的一种方式。单层决策树实际上是一个单节点的决策树。adaboost优点:泛化错误率低,易编码,可以应用在大部分分类器上,无参数调整缺点:对离群点敏感适用数据类型:数值型和标称型数据bagging:基于数据随机重抽样的分类器构建方法自举汇聚法,也称为bagging方法,是在从 阅读全文
posted @ 2018-07-23 15:39 我们都是大好青年 阅读(1589) 评论(0) 推荐(0) 编辑
摘要: SVM有很多种实现,但是本章只关注其中最流行的一种实现,即序列最小化(SMO)算法在此之后,我们将介绍如何使用一种称为核函数的方式将SVM扩展到更多的数据集上基于最大间隔的分割数据优点:泛化错误率低,计算开销不大,结果易解释缺点:对参数调节和核函数的选择敏感,原始分类器不加修改仅适用于处理二类问题适 阅读全文
posted @ 2018-07-23 11:44 我们都是大好青年 阅读(1069) 评论(0) 推荐(0) 编辑
摘要: 假设现在有一些点,我们用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称作回归。利用Logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,依次进行分类。Logistic回归的一般过程(1)收集数据:采用任意方法收集数据(2)准备数据:由于需要进行距离计算, 阅读全文
posted @ 2018-07-23 10:13 我们都是大好青年 阅读(4125) 评论(0) 推荐(0) 编辑
上一页 1 ··· 12 13 14 15 16 17 18 19 20 ··· 25 下一页