摘要: 这篇讲几个基本而又流行的clustering methods: k-means, k-medoids, hierarchical clustering。这是几种最基本的clustering method。K-means顾名思义,就是希望将所有的数据点分为 k 类,而且这个类别和 mean 非常相关。目标函数即为要使下式目标函数最小:其中有上式中没办法获得最优解,所以解k-means都是通过Maxinum Expectation。解法如下:Initialize: 任意将数据划分为 k 个起始的 cluster。Step 1: 计算每个cluster 的中心。Step 2: 将每个点分配到最近的那 阅读全文
posted @ 2012-10-03 08:05 YYNicholas 阅读(626) 评论(0) 推荐(1) 编辑
摘要: 因为在研究上篇pLSA中运用到likelihood function,而且对其中的 likelihood function 倍感困惑。所以另开一篇,专讲likelihood function。参考来自wikipedia:http://en.wikipedia.org/wiki/Likelihood_function在统计学中,likelihood function是一个非常重要的量,在统计推断、参数估计中扮演着重要的角色。Likelihood function是一个基于统计模型中的参数的函数,注意变量是 parameter 参数,而不是variables。在wikipedia中,有thelik 阅读全文
posted @ 2012-08-27 16:48 YYNicholas 阅读(1629) 评论(0) 推荐(0) 编辑
摘要: Probabilistic Latent Semantic Analysis 实际上是对PCA在LSA这个应用上的一个概率上的延展。PCA中并未给出对于数据的任何假设,是否为同一分布的随机抽样,是否数据的每一维都相互独立,等等。但如果数据存在某种分布,则PCA没有办法予以利用。而且PCA没有一个稳固的概率解释,也让人颇为遗憾。除此之外,PCA在处理 latent semantic analysis 时没有办法处理一词多义 polysymy 现象,就是没有办法将一个词分列入两个阵营,所以很遗憾。而且在大规模的 latent semantic analysis 中,由于词汇量巨大,使得文章x词汇的 阅读全文
posted @ 2012-08-27 01:40 YYNicholas 阅读(1113) 评论(0) 推荐(0) 编辑
摘要: Principal Compoent Analysis(PCA)是在data mining中非常重要的一个话题。本篇中,我们讨论PCA。所选材料为CMU的一个关于PCA的tutorial,http://www.stat.cmu.edu/~cshalizi/490/pca/pca-handout.pdf在上一篇中提到了PCA,但是没有进行深入的推导。可能从subspace的角度来推导PCA比较复杂,只从variance出发,可能证明步骤会更简单。PCA是一个通过利用变量之间的关系、在尽可能少的损失信息的情况下、将高维数据表示为更利于处理的低维数据的技术方法。PCA是一种最简单同时也最稳定的降维方 阅读全文
posted @ 2012-08-25 17:52 YYNicholas 阅读(584) 评论(0) 推荐(0) 编辑
摘要: 针对数据处理的线性模型:线性子空间模型。目的:寻找数据的线性表示。为什么要寻找线性表示?对于一个数据集,如果我们能够找到一组最小的向量基,让其他的所有数据可以表示为该向量的线性组合,就可以有效的减少所需的存储空间。可以理解为将原数据的高维度空间减小到一个子空间,而且该子空间的维度为最小向量基的个数。子空间模型可以用来进行对向量数据的搜索。其实就是涉及到计算similarity,这在clustering等很多领域都有用。文中举一个例子是关于图像处理方面的object detection。在寻找向量基的过程中,我们也需要用到PCA,principal component analysis,在此一并 阅读全文
posted @ 2012-08-25 08:00 YYNicholas 阅读(1017) 评论(0) 推荐(0) 编辑