2013年12月30日

摘要: 1 问题 之前我们考虑的训练数据中样例的个数m都远远大于其特征个数n,这样不管是进行回归、聚类等都没有太大的问题。然而当训练样例个数m太小,甚至m=n+1才能保证在最大似然估计下得出的是非奇异的。然而在上面的任何一种假设限定条件下,只要m>=2都可以估计出限定的。 这样做的缺点也是显然易见的,我们认为特征间独立,这个假设太强。接下来,我们给出一种称为因子分析的方法,使用更多的参数来分析特征间的关系,并且不需要计算一个完整的。3 边缘和条件高斯分布 在讨论因子分析之前,先看看多元高斯分布中,条件和边缘高斯分布的求法。这个在后面因子分析的EM推导中有用。 假设x是有两个随机向量组成(可以看作 阅读全文
posted @ 2013-12-30 22:05 虚若怀谷 阅读(345) 评论(0) 推荐(0) 编辑
摘要: 前面介绍了主成分分析,概率主成分分析是对主成分分析在概率上的一种推广。 概率的引入,为主成分分析带来极大的好处。下面简单介绍概率主成分分析的 导出以及和主成分分析的关系。 在概率主成分分析里面,假设预测数据x是由一个隐变量z生成的,并且隐变量z以及条件概率p(x|z)均服从高斯分布。根据高斯分布的性质,x的边缘分布p(x)也服从高斯分布,因为有了概率,我们可以从全新的角度去理解主成分分析了, 在该模型中,我们有两个参数W和σ,参数可以用极大似然估计求出。 对数似然函数如下,其中上面用到了迹的循环不变性的性质。 我们忽略具体求解过程,分析一下它的解的形式,其中表示数据协方差矩阵最大的M个特征值所 阅读全文
posted @ 2013-12-30 09:49 虚若怀谷 阅读(460) 评论(0) 推荐(0) 编辑

2013年12月27日

摘要: 主成分分析是一种降维方法,主要用于数据压缩,数据可视化以及特征提取等方面。 现实中我们经常可以遇到维数很高的数据,如一张28*28的图片,可以看作维度为784。类似图片这样的高维数据,实际上各个维度之间具有高度的关联性,即维度之间并非完全独立的。通过进行主成分分析,可以将数据的主要特征提取出来,忽略非 重要特征,从而对数据进行压缩。这里的主成分代表一组规范正交基,每个基用表示,并且满足。假设X表示我们的观测数据矩阵,大小为N*D, 我们希望将其压缩到 N*M的矩阵Z。主成分分析有两种直观上的理解,并且可以 证明这两种直观理解是等价的。第一种方式,我们希望找到这样一组正交基,使得映射后的数据方差 阅读全文
posted @ 2013-12-27 18:07 虚若怀谷 阅读(342) 评论(0) 推荐(0) 编辑

2013年12月23日

摘要: Microsoft published a paper in ICML 2009 named ‘Web-Scale Bayesian Click-Through Rate Prediction for Sponsored Search Advertising in Microsoft’s Bing Search Engine’, which is claimed won the competition of most accurate and scalable CTR predictor across MS. This article shows how to inference this m 阅读全文
posted @ 2013-12-23 15:09 虚若怀谷 阅读(1028) 评论(0) 推荐(0) 编辑
摘要: Everybody knows about Gaussian distribution, and Gaussian is very popular in Bayesian world and even in our life. This article summaries typical operation of Gaussian, and something about Truncated Guassian distribution.pdf(probability density function) and cdf(cumulative density function) of Gaussi 阅读全文
posted @ 2013-12-23 10:19 虚若怀谷 阅读(1102) 评论(0) 推荐(0) 编辑

2013年12月16日

摘要: 从之前的文章中,我们已经得到了所有需要求解的参数的优化分布的形式,分别为:‍但是,我们从这些分布的表达式中(参见之前的文章),可以发现这些式子并不能够直接求解。这是因为各个参数之间相互耦合,从而导致得到的不是一个直接可以得到的解,所以我们需要进行迭代求解,正如我们在之前所描述的一样。我们观察这三组参数的表达形式,我们会发现,Z的求解依赖于r这个变量,而r这个变量的求解依赖于其余的所有参数。我们再看其他的参数,这些参数的求解依赖于r。从而我们得到了这个求解过程中的耦合部分。所以我们可以得到一个初步的求解迭代过程:1. 初始化所有的参数,包括Z,r,pi,mu,Lambda等控制参数以及其超参数; 阅读全文
posted @ 2013-12-16 17:40 虚若怀谷 阅读(282) 评论(0) 推荐(0) 编辑
摘要: 我们现在已经得到了关于潜在变量Z的优化分布的表达形式:‍其中:‍所以现在我们可以得到Z的期望:‍另外对于Z还值得一提的是,我们从其优化分布的表达式中可以看出,各个Z的组成部分之间还是相互耦合的,所以需要一个迭代的求解方式。解决了关于Z的一些遗留的问题,我们可以继续讨论如何求解余下的参数。同样的,我们的基本想法,还是将其带入我们之前所求到的公式中去,从而,我们有:‍现在,我们回头去观察一下这个混合高斯分布的图模型,我们会发现,在控制变量中,本身存在一个独立性,即:‍从而,在近似模型中,我们有:‍于是,我们从这些参数的优化表达式中,分别提取出只关于部分参数的式子,进行进一步优化,即:‍‍现在,我们 阅读全文
posted @ 2013-12-16 17:25 虚若怀谷 阅读(219) 评论(0) 推荐(0) 编辑
摘要: 在这篇文章中,我引用Bishop书中的一个例子,来简单介绍一下Variational Methods的应用。想要更详细地理解这个例子,可以参考Bishop的书Pattern Recongnition and Machine Learning的第十章。这个例子应用于一个混合高斯分布,我们先来看一看这个混合高斯分布的图模型,见图3,从而可以进一步退出其概率表达式。‍现在我们有了这个图,我们就不难写下一个完整的概率式来表示整个联合分布:‍现在,我们来定义一些分布。首先,我们已经说过,这是一个混合高斯模型,那么就需要有一个变量来描述,一个点的生成,到底是由这个混合高斯中的哪一个组成部分生成。那么这个变 阅读全文
posted @ 2013-12-16 17:19 虚若怀谷 阅读(399) 评论(0) 推荐(0) 编辑

2013年12月13日

摘要: 一、前言变分贝叶斯方法最早由Matthew J.Beal在他的博士论文《Variational Algorithms for Approximate Bayesian Inference》中提出,作者将其应用于隐马尔科夫模型,混合因子分析,线性动力学,图模型等。变分贝叶斯是一类用于贝叶斯估计和机器学习领域中近似计算复杂(intractable)积分的技术。它主要应用于复杂的统计模型中,这种模型一般包括三类变量:观测变量(observed variables, data),未知参数(parameters)和潜变量(latent variables)。在贝叶斯推断中,参数和潜变量统称为不可观测变量 阅读全文
posted @ 2013-12-13 11:39 虚若怀谷 阅读(1342) 评论(0) 推荐(0) 编辑

2013年12月12日

摘要: 周末看了一下这篇论文,觉得挺难的,后来想想是ICML的论文,也就明白为什么了。先简单记录下来,以后会继续添加内容。主要参考了论文Web-Scale Bayesian Click-Through Rate Prediction for Sponsored Search Advertising in Microsoft’s Bing Search Engine(下载链接:http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.165.5644&rep=rep1&type=pdf)以及百度网盟CTR预估技术负责人夏粉老师分享的 阅读全文
posted @ 2013-12-12 15:04 虚若怀谷 阅读(1442) 评论(1) 推荐(1) 编辑

导航