机器学习 - 随笔分类 - yyxayz

ID3和C4.5、CART

摘要：CART连续属性参考C4.5的离散化过程，区别在于CART算法中要以GiniGain最小作为分界点选取标准。是否需要修正？处理过程为：先把连续属性转换为离散属性再进行处理。虽然本质上属性的取值是连续的，但对于有限的采样数据它是离散的，如果有N条样本，那么我们有N-1种离散化的方法：vj的分到右子树。... 阅读全文

posted @ 2015-08-09 18:48 yyxayz 阅读(857) 评论(0) 推荐(0) 编辑

机器学习中的距离度量

摘要：在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement)，这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究，甚至关系到分类的正确与否。本文的目的就是对常用的相似性度量作一个总结。本文目录：1. 欧氏距离2. 曼... 阅读全文

posted @ 2015-03-08 11:27 yyxayz 阅读(280) 评论(0) 推荐(0) 编辑

数据挖掘算法源代码：很好的参考资料

摘要：kaggle上近一段时间数据挖掘竞赛的获奖队伍的源代码，对掌握相应的数据挖掘技术很有帮助。这些代码和技术都是经过竞赛实际检验的，比很多华而不实的学术论文要接地气得多。学习和实践起来也更方便Kaggle Competition Past Solutions2 Replies[edit: last up... 阅读全文

posted @ 2014-12-11 15:30 yyxayz 阅读(805) 评论(0) 推荐(0) 编辑

均方根值（RMS）+ 均方根误差（RMSE）+标准差（Standard Deviation）

摘要：1、均方根值（RMS）也称作为效值，它的计算方法是先平方、再平均、然后开方。2、均方根误差，它是观测值与真值偏差的平方和观测次数n比值的平方根，在实际测量中，观测次数n总是有限的，真值只能用最可信赖（最佳）值来代替.方根误差对一组测量中的特大或特小误差反映非常敏感，所以，均方根误差能够很好地反映出测... 阅读全文

posted @ 2014-12-08 16:24 yyxayz 阅读(2721) 评论(0) 推荐(0) 编辑

主成分分析法(PCA)答疑

摘要：问：为什么要去均值？1、我认为归一化的表述并不太准确，按统计的一般说法，叫标准化。数据的标准化过程是减去均值并除以标准差。而归一化仅包含除以标准差的意思或者类似做法。2、做标准化的原因是：减去均值等同于坐标的移动，把原始数据点的重心移到和原点重合，这样利于很多表达，比如数据的协方差矩阵可以写成XX'... 阅读全文

posted @ 2014-12-07 23:32 yyxayz 阅读(973) 评论(0) 推荐(0) 编辑

支持向量机(SVM)基础

摘要：一、线性分类器：首先给出一个非常非常简单的分类问题（线性可分），我们要用一条直线，将下图中黑色的点和白色的点分开，很显然，图上的这条直线就是我们要求的直线之一（可以有无数条这样的直线）假如说，我们令黑色的点 = -1，白色的点 = +1，直线f(x) = w.x + b，这儿的x、w是向量，其实... 阅读全文

posted @ 2014-10-24 17:05 yyxayz 阅读(263) 评论(0) 推荐(0) 编辑

Logistic回归，梯度上升算法理论详解和实现

摘要：经过对Logistic回归理论的学习，推导出取对数后的似然函数为现在我们的目的是求一个向量，使得最大。其中对这个似然函数求偏导后得到根据梯度上升算法有进一步得到我们可以初始化向量为0，或者随机值，然后进行迭代达到指定的精度为止。1 def sigmoid(inX):2 retur... 阅读全文

posted @ 2014-10-24 09:52 yyxayz 阅读(1477) 评论(0) 推荐(0) 编辑

yyxayz

随笔分类 - 机器学习

公告