摘要:
;;Kmeans的时间复杂度是O(m)(《数据挖掘导论》,m是数据规模)。但是,算法在每次迭代过程中需要计算每个点到各个质心的距离,于是距离函数需要被计算km次,k是质心个数,而计算欧氏距离的过程如果看成是求一个n次多项式的函数值的过程,就算运用秦九韶算法也需要n次乘法和n次加法。当数据规模很大甚至作为核外数据集时,这显然是不能接受的。;;前人的许多研究都围绕近似展开,以牺牲准确度为代价来加速算法... 阅读全文
摘要:
;;朴素贝叶斯和贝叶斯信念网络(简称贝叶斯网络)是数据挖掘和机器学习中基本的分类算法,其理论基础都是贝叶斯定理。;;1,回归模型和生成模型;;有监督的分类问题可以分为两大类,回归模型和生成模型。;;回归模型:首先假设样本服从某一分布,常用的如高斯分布、伯努利分布等。在这一假设下训练一个模型(即分类器),对于检测样本,将样本的特征集作为输入,得到指示样本类别的类标签。由于是用训练集的特征集合和类标签... 阅读全文
摘要:
2011[AISTATS]DimensionalityReductionforSpectralClustering[cited72]在处理大数据时,抽样和降维是两种常用的方法,但是二者的目的的方法却从来都大相径庭。抽样的目的是,在一定的聚类结果准确度的衡量标准下(如;A;Tutorial;on;the;Spectral;Clustering;Section;8中用图的分割理论),以牺牲尽可能小的准... 阅读全文
摘要:
精读:[1] 2007 Springer. Ulrike von Luxburg, A Tutorial on Spectral Clustering. 介绍了laplacian graph,similarity graph等谱聚类基础知识,以及利用三种laplacian graph进行聚类的谱聚类算法极其来由。最后介绍了诸如拉普拉斯矩阵的选择,聚类参数的选择,特征向量的求解等子问题的求解方法和进展。[2] 2004 IEEE. Charless Fowlkes, Serge Belongie, Fan Chung, and Jitendra Malik, Spectral Grouping. 阅读全文
摘要:
FASP:FastApproximateSpectralClustering;;2009年KDD上的这篇FastApproximateSpectralClustering,提出了一种谱聚类算法的框架,并设计了该框架下的两个实例:基于k-means算法的KASP,和基于随机游走的RASP。并通过实验说明了该框架的优势。这篇文章和之前阅读的SpectralGroupingUsingNystromMet... 阅读全文
摘要:
;;我对大数据谱聚类的学习,从2007年IEEE上的;Atutorialonspectralclustering开始。这篇文章从相似度及拉普拉斯图这两个基本概念开始,介绍了基本的谱聚类算法,并针对运用三个不同的拉普拉斯矩阵(L,Lsym,Lrw)做谱聚类的三种方法分别解释了算法的由来,随后罗列了诸如相似度图的选取(相似度图的比较、对聚类的影响、相似度参数的优化问题)、特征向量的求解、聚类个数k的确... 阅读全文
摘要:
;ImprovedNystromLow-RankApproximationandErrorAnalysis;;小秩矩阵(low-rankmatrix)在核方法和抽样中,可有效地减小计算开销。给定数据集$X{rm{=}}left{{{x_i}}right}_{i=1}^n$,核矩阵为$K=left{{{{rm{k}}_{ij}}}right}_{i,j=1}^n$,其中${k_{ij}}=k({x_... 阅读全文
摘要:
精读:[1]2007Springer.UlrikevonLuxburg,ATutorialonSpectralClustering.;;介绍了laplaciangraph,similaritygraph等谱聚类基础知识,以及利用三种laplaciangraph进行聚类的谱聚类算法极其来由。最后介绍了诸如拉普拉斯矩阵的选择,聚类参数的选择,特征向量的求解等子问题的求解方法和进展。[2]2004IEE... 阅读全文
摘要:
SpectralGroupingUsingTheNystromMethod(2004IEEE);;背景:谱聚类算法的大致步骤是,求数据集之间的相似度矩阵,并构造出相似度图,然后求得某种形式上的LaplacianMatrix(L,Lrw或者Lsym),然后求laplacianmatrix的前K个特征向量,随后以k个特征向量组成的矩阵U的前K个行向量作为输入,运行k-means算法,得到最后的聚类结果... 阅读全文
摘要:
学习了谱聚类的算法,以及unnormalizedspectralclustering和采用Lrw的谱聚类算法这两种聚类算法的来由后,继续学习了采用Lsym的谱聚类算法的原理。在Setc.5.4中有所阐述,原理和推导和前面类似。Sect.6介绍了随机游走,Sect.7介绍的微扰理论是一种重要的近似方法,分别就两个不同角度解释了whyspectralclusteringworks这个问题。Sect8从... 阅读全文