Statistics - 随笔分类 - liangzh123

距离和相似度度量

摘要：在数据分析和数据挖掘的过程中，我们经常需要知道个体间差异的大小，进而评价个体的相似性和类别。最常见的是数据分析中的相关分析，数据挖掘中的分类和聚类算法，如K最近邻（KNN）和K均值（K-Means）。当然衡量个体差异的方法有很多，这里整理罗列下。为了方便下面的解释和举例，先设定我们要比较X个体和Y个体间的差异，它们都包含了N个维的特征，即X=（x1, x2, x3, … xn），Y=（y1, y2, y3, … yn）。下面来看看主要可以用哪些方法来衡量两者的差异，主要分为距离度量和相似度度量。距离度量距离度量（Distance）用于衡量个体在空间上存在的距离，距离越远说明个体间的差异.. 阅读全文

posted @ 2013-04-26 10:10 liangzh123 阅读(837) 评论(0) 推荐(0) 编辑

主成分分析PCA--理论基础

摘要：整个PCA过程貌似及其简单，就是求协方差的特征值和特征向量，然后做数据转换。但是有没有觉得很神奇，为什么求协方差的特征向量就是最理想的k维向量？其背后隐藏的意义是什么？整个PCA的意义是什么？要解释为什么协方差矩阵的特征向量就是k维理想特征，我看到的有三个理论：分别是最大方差理论、最小错误理论和坐标轴相关度理论。这里简单探讨前两种，最后一种在讨论PCA意义时简单概述。1 最大方差理论在信号处理中认为信号具有较大的方差，噪声有较小的方差，信噪比就是信号与噪声的方差比，越大越好。如前面的图，样本在横轴上的投影方差较大，在纵轴上的投影方差较小，那么认为纵轴上的投影是由噪声引起的。因此我们认为，最好阅读全文

posted @ 2012-12-13 19:46 liangzh123 阅读(749) 评论(0) 推荐(0) 编辑

主成分分析PCA--计算过程

摘要：1. 问题真实的训练数据总是存在各种各样的问题：1、比如拿到一个汽车的样本，里面既有以“千米/每小时”度量的最大速度特征，也有“英里/小时”的最大速度特征，显然这两个特征有一个多余。2、拿到一个数学系的本科生期末考试成绩单，里面有三列，一列是对数学的兴趣程度，一列是复习时间，还有一列是考试成绩。我们知道要学好数学，需要有浓厚的兴趣，所以第二项与第一项强相关，第三项和第二项也是强相关。那是不是可以合并第一项和第二项呢？3、拿到一个样本，特征非常多，而样例特别少，这样用回归去直接拟合非常困难，容易过度拟合。比如北京的房价：假设房子的特征是（大小、位置、朝向、是否学区房、建造年代、是否二手、阅读全文

posted @ 2012-12-13 19:37 liangzh123 阅读(2989) 评论(0) 推荐(0) 编辑

Sum of squares

摘要：给定一个线性回归模型 yi = β0 + β1xi1 +…+ βpxi1 + εi 对应数据集(xi1, xi2,…, xip, yi), i=1,…,n，包含n个观察数据. β是系数，ε 是误差项表示y的期望，就是离差(deviation)，注意不是方差(variance); 表示对yi预测的阅读全文

posted @ 2012-12-11 19:59 liangzh123 阅读(1294) 评论(0) 推荐(0) 编辑

协方差与协方差矩阵

摘要：协方差是统计学上表示两个随机变量之间的相关性，随机变量ξ的离差与随机变量η的离差的乘积的数学期望叫做随机变量ξ与η的协方差（也叫相关矩），记作cov(ξ, η)：cov(ξ, η)= E[(ξ-Eξ)(η-Eη)] = E(ξη)-EξEη对于离散随机变量，我们有:对于连续随机变量，我们有:随机变量的协方差用来描述随机变量之间的相关性，如果ξ与η独立，则cov(ξ, η)=0. 如果ξ与η相同，则cov(ξ, η)就是变量ξ的方差.协方差矩阵是一个矩阵，其每个元素是各个矢量元素之间的协方差。这是从标量随机变量到高维度随机矢量的自然推广.假设是以个标量随机变量组成的列矢量，并且是其第i个元素的期阅读全文

posted @ 2012-12-09 16:12 liangzh123 阅读(6547) 评论(1) 推荐(0) 编辑

liangzh123

随笔分类 - Statistics

距离和相似度度量

主成分分析PCA--理论基础

主成分分析PCA--计算过程

Sum of squares

协方差与协方差矩阵

导航

公告