随笔分类 -  Statistics

距离和相似度度量
摘要:在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如K最近邻(KNN)和K均值(K-Means)。当然衡量个体差异的方法有很多,这里整理罗列下。 为了方便下面的解释和举例,先设定我们要比较X个体和Y个体间的差异,它们都包含了N个维的特征,即X=(x1, x2, x3, … xn),Y=(y1, y2, y3, … yn)。下面来看看主要可以用哪些方法来衡量两者的差异,主要分为距离度量和相似度度量。距离度量 距离度量(Distance)用于衡量个体在空间上存在的距离,距离越远说明个体间的差异.. 阅读全文

posted @ 2013-04-26 10:10 liangzh123 阅读(837) 评论(0) 推荐(0) 编辑

主成分分析PCA--理论基础
摘要:整个PCA过程貌似及其简单,就是求协方差的特征值和特征向量,然后做数据转换。但是有没有觉得很神奇,为什么求协方差的特征向量就是最理想的k维向量?其背后隐藏的意义是什么?整个PCA的意义是什么?要解释为什么协方差矩阵的特征向量就是k维理想特征,我看到的有三个理论:分别是最大方差理论、最小错误理论和坐标轴相关度理论。这里简单探讨前两种,最后一种在讨论PCA意义时简单概述。1 最大方差理论 在信号处理中认为信号具有较大的方差,噪声有较小的方差,信噪比就是信号与噪声的方差比,越大越好。如前面的图,样本在横轴上的投影方差较大,在纵轴上的投影方差较小,那么认为纵轴上的投影是由噪声引起的。因此我们认为,最好 阅读全文

posted @ 2012-12-13 19:46 liangzh123 阅读(749) 评论(0) 推荐(0) 编辑

主成分分析PCA--计算过程
摘要:1. 问题 真实的训练数据总是存在各种各样的问题:1、 比如拿到一个汽车的样本,里面既有以“千米/每小时”度量的最大速度特征,也有“英里/小时”的最大速度特征,显然这两个特征有一个多余。2、 拿到一个数学系的本科生期末考试成绩单,里面有三列,一列是对数学的兴趣程度,一列是复习时间,还有一列是考试成绩。我们知道要学好数学,需要有浓厚的兴趣,所以第二项与第一项强相关,第三项和第二项也是强相关。那是不是可以合并第一项和第二项呢?3、 拿到一个样本,特征非常多,而样例特别少,这样用回归去直接拟合非常困难,容易过度拟合。比如北京的房价:假设房子的特征是(大小、位置、朝向、是否学区房、建造年代、是否二手、 阅读全文

posted @ 2012-12-13 19:37 liangzh123 阅读(2989) 评论(0) 推荐(0) 编辑

Sum of squares
摘要:给定一个线性回归模型 yi = β0 + β1xi1 +…+ βpxi1 + εi 对应数据集(xi1, xi2,…, xip, yi), i=1,…,n,包含n个观察数据. β是系数,ε 是误差项 表示y的期望, 就是离差(deviation),注意不是方差(variance); 表示对yi预测的 阅读全文

posted @ 2012-12-11 19:59 liangzh123 阅读(1294) 评论(0) 推荐(0) 编辑

协方差与协方差矩阵
摘要:协方差是统计学上表示两个随机变量之间的相关性,随机变量ξ的离差与随机变量η的离差的乘积的数学期望叫做随机变量ξ与η的协方差(也叫相关矩),记作cov(ξ, η):cov(ξ, η)= E[(ξ-Eξ)(η-Eη)] = E(ξη)-EξEη对于离散随机变量,我们有:对于连续随机变量,我们有:随机变量的协方差用来描述随机变量之间的相关性,如果ξ与η独立,则cov(ξ, η)=0. 如果ξ与η相同,则cov(ξ, η)就是变量ξ的方差.协方差矩阵是一个矩阵,其每个元素是各个矢量元素之间的协方差。这是从标量随机变量到高维度随机矢量的自然推广.假设是以个标量随机变量组成的列矢量,并且是其第i个元素的期 阅读全文

posted @ 2012-12-09 16:12 liangzh123 阅读(6547) 评论(1) 推荐(0) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示