随笔分类 - 机器学习
摘要:CART连续属性参考C4.5的离散化过程,区别在于CART算法中要以GiniGain最小作为分界点选取标准。是否需要修正?处理过程为:先把连续属性转换为离散属性再进行处理。虽然本质上属性的取值是连续的,但对于有限的采样数据它是离散的,如果有N条样本,那么我们有N-1种离散化的方法:vj的分到右子树。...
阅读全文
摘要:在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性度量作一个总结。本文目录:1. 欧氏距离2. 曼...
阅读全文
摘要:kaggle上近一段时间数据挖掘竞赛的获奖队伍的源代码,对掌握相应的数据挖掘技术很有帮助。这些代码和技术都是经过竞赛实际检验的,比很多华而不实的学术论文要接地气得多。学习和实践起来也更方便Kaggle Competition Past Solutions2 Replies[edit: last up...
阅读全文
摘要:1、均方根值(RMS)也称作为效值,它的计算方法是先平方、再平均、然后开方。2、均方根误差,它是观测值与真值偏差的平方和观测次数n比值的平方根,在实际测量中,观测次数n总是有限的,真值只能用最可信赖(最佳)值来代替.方根误差对一组测量中的特大或特小误差反映非常敏感,所以,均方根误差能够很好地反映出测...
阅读全文
摘要:问:为什么要去均值?1、我认为归一化的表述并不太准确,按统计的一般说法,叫标准化。数据的标准化过程是减去均值并除以标准差。而归一化仅包含除以标准差的意思或者类似做法。2、做标准化的原因是:减去均值等同于坐标的移动,把原始数据点的重心移到和原点重合,这样利于很多表达,比如数据的协方差矩阵可以写成XX'...
阅读全文
摘要:一、线性分类器:首先给出一个非常非常简单的分类问题(线性可分),我们要用一条直线,将下图中黑色的点和白色的点分开,很显然,图上的这条直线就是我们要求的直线之一(可以有无数条这样的直线) 假如说,我们令黑色的点 = -1, 白色的点 = +1,直线f(x) = w.x + b,这儿的x、w是向量,其实...
阅读全文
摘要:经过对Logistic回归理论的学习,推导出取对数后的似然函数为 现在我们的目的是求一个向量,使得最大。其中 对这个似然函数求偏导后得到 根据梯度上升算法有 进一步得到我们可以初始化向量为0,或者随机值,然后进行迭代达到指定的精度为止。1 def sigmoid(inX):2 retur...
阅读全文