YYNicholas - 博客园

2012年10月3日

k-means, k-medoids and hierarchical clustering

摘要：这篇讲几个基本而又流行的clustering methods： k-means, k-medoids, hierarchical clustering。这是几种最基本的clustering method。K-means顾名思义，就是希望将所有的数据点分为 k 类，而且这个类别和 mean 非常相关。目标函数即为要使下式目标函数最小：其中有上式中没办法获得最优解，所以解k-means都是通过Maxinum Expectation。解法如下：Initialize: 任意将数据划分为 k 个起始的 cluster。Step 1: 计算每个cluster 的中心。Step 2: 将每个点分配到最近的那阅读全文

posted @ 2012-10-03 08:05 YYNicholas 阅读(626) 评论(0) 推荐(1) 编辑

2012年8月27日

Likelihood Function 似然函数

摘要：因为在研究上篇pLSA中运用到likelihood function，而且对其中的 likelihood function 倍感困惑。所以另开一篇，专讲likelihood function。参考来自wikipedia:http://en.wikipedia.org/wiki/Likelihood_function在统计学中，likelihood function是一个非常重要的量，在统计推断、参数估计中扮演着重要的角色。Likelihood function是一个基于统计模型中的参数的函数，注意变量是 parameter 参数，而不是variables。在wikipedia中，有thelik 阅读全文

posted @ 2012-08-27 16:48 YYNicholas 阅读(1629) 评论(0) 推荐(0) 编辑

Probabilistic Latent Semantic Analysis 概率隐含语义分析

摘要： Probabilistic Latent Semantic Analysis 实际上是对PCA在LSA这个应用上的一个概率上的延展。PCA中并未给出对于数据的任何假设，是否为同一分布的随机抽样，是否数据的每一维都相互独立，等等。但如果数据存在某种分布，则PCA没有办法予以利用。而且PCA没有一个稳固的概率解释，也让人颇为遗憾。除此之外，PCA在处理 latent semantic analysis 时没有办法处理一词多义 polysymy 现象，就是没有办法将一个词分列入两个阵营，所以很遗憾。而且在大规模的 latent semantic analysis 中，由于词汇量巨大，使得文章x词汇的阅读全文

posted @ 2012-08-27 01:40 YYNicholas 阅读(1113) 评论(0) 推荐(0) 编辑

2012年8月25日

Principal Component Analysis 主元分析

摘要： Principal Compoent Analysis(PCA)是在data mining中非常重要的一个话题。本篇中，我们讨论PCA。所选材料为CMU的一个关于PCA的tutorial，http://www.stat.cmu.edu/~cshalizi/490/pca/pca-handout.pdf在上一篇中提到了PCA，但是没有进行深入的推导。可能从subspace的角度来推导PCA比较复杂，只从variance出发，可能证明步骤会更简单。PCA是一个通过利用变量之间的关系、在尽可能少的损失信息的情况下、将高维数据表示为更利于处理的低维数据的技术方法。PCA是一种最简单同时也最稳定的降维方阅读全文

posted @ 2012-08-25 17:52 YYNicholas 阅读(584) 评论(0) 推荐(0) 编辑

Linear Subspace Model 线性子空间模型

摘要：针对数据处理的线性模型：线性子空间模型。目的：寻找数据的线性表示。为什么要寻找线性表示？对于一个数据集，如果我们能够找到一组最小的向量基，让其他的所有数据可以表示为该向量的线性组合，就可以有效的减少所需的存储空间。可以理解为将原数据的高维度空间减小到一个子空间，而且该子空间的维度为最小向量基的个数。子空间模型可以用来进行对向量数据的搜索。其实就是涉及到计算similarity，这在clustering等很多领域都有用。文中举一个例子是关于图像处理方面的object detection。在寻找向量基的过程中，我们也需要用到PCA，principal component analysis，在此一并阅读全文

posted @ 2012-08-25 08:00 YYNicholas 阅读(1017) 评论(0) 推荐(0) 编辑

天涯或海角

公告