摘要: Principal Compoent Analysis(PCA)是在data mining中非常重要的一个话题。本篇中,我们讨论PCA。所选材料为CMU的一个关于PCA的tutorial,http://www.stat.cmu.edu/~cshalizi/490/pca/pca-handout.pdf在上一篇中提到了PCA,但是没有进行深入的推导。可能从subspace的角度来推导PCA比较复杂,只从variance出发,可能证明步骤会更简单。PCA是一个通过利用变量之间的关系、在尽可能少的损失信息的情况下、将高维数据表示为更利于处理的低维数据的技术方法。PCA是一种最简单同时也最稳定的降维方 阅读全文
posted @ 2012-08-25 17:52 YYNicholas 阅读(584) 评论(0) 推荐(0) 编辑
摘要: 针对数据处理的线性模型:线性子空间模型。目的:寻找数据的线性表示。为什么要寻找线性表示?对于一个数据集,如果我们能够找到一组最小的向量基,让其他的所有数据可以表示为该向量的线性组合,就可以有效的减少所需的存储空间。可以理解为将原数据的高维度空间减小到一个子空间,而且该子空间的维度为最小向量基的个数。子空间模型可以用来进行对向量数据的搜索。其实就是涉及到计算similarity,这在clustering等很多领域都有用。文中举一个例子是关于图像处理方面的object detection。在寻找向量基的过程中,我们也需要用到PCA,principal component analysis,在此一并 阅读全文
posted @ 2012-08-25 08:00 YYNicholas 阅读(1017) 评论(0) 推荐(0) 编辑