JerryLead

线性判别分析（Linear Discriminant Analysis）（一）

摘要： 1. 问题之前我们讨论的PCA、ICA也好，对样本数据来言，可以是没有类别标签y的。回想我们做回归时，如果特征太多，那么会产生不相关特征引入、过度拟合等问题。我们可以使用PCA来降维，但PCA没有将类别标签考虑进去，属于无监督的。比如回到上次提出的文档中含有“learn”和“study”的问题，使用PCA后，也许可以将这两个特征合并为一个，降了维度。但假设我们的类别标签y是判断这篇文章的topic是不是有关学习方面的。那么这两个特征对y几乎没什么影响，完全可以去除。再举一个例子，假设我们对一张100*100像素的图片做人脸识别，每个像素是一个特征，那么会有10000个特征，而对应的类别标阅读全文

posted @ 2011-04-21 23:26 JerryLead 阅读(108620) 评论(31) 推荐(23)

ICA扩展描述

摘要： 7. ICA算法扩展描述上面介绍的内容基本上是讲义上的，与我看的另一篇《Independent Component Analysis:Algorithms and Applications》（Aapo Hyvärinen and Erkki Oja）有点出入。下面总结一下这篇文章里提到的一些内容（有些我也没看明白）。首先里面提到了一个与“独立”相似的概念“不相关（uncorrelated）”。Uncorrelated属于部分独立，而不是完全独立，怎么刻画呢？如果随机变量和是独立的，当且仅当。如果随机变量和是不相关的，当且仅当第二个不相关的条件要比第一个独立的条件“松”一些。阅读全文

posted @ 2011-04-19 16:35 JerryLead 阅读(15658) 评论(0) 推荐(4)

独立成分分析（Independent Component Analysis）

摘要： 1. 问题： 1、上节提到的PCA是一种数据降维的方法，但是只对符合高斯分布的样本点比较有效，那么对于其他分布的样本，有没有主元分解的方法呢？ 2、经典的鸡尾酒宴会问题（cocktail party problem）。假设在party中有n个人，他们可以同时说话，我们也在房间中一些角落里共放置了n个声音接收器（Microphone）用来记录声音。宴会过后，我们从n个麦克风中得到了一组数据，i表示采样的时间顺序，也就是说共得到了m组采样，每一组采样都是n维的。我们的目标是单单从这m组采样数据中分辨出每个人说话的信号。将第二个问题细化一下，有n个信号源，，每一维都是一个人的声音信号，每个人发出的阅读全文

posted @ 2011-04-19 16:11 JerryLead 阅读(57159) 评论(10) 推荐(14)

主成分分析（Principal components analysis）-最小平方误差解释

摘要：接上篇3.2 最小平方误差理论假设有这样的二维样本点（红色点），回顾我们前面探讨的是求一条直线，使得样本点投影到直线上的点的方差最大。本质是求直线，那么度量直线求的好不好，不仅仅只有方差最大化的方法。再回想我们最开始学习的线性回归等，目的也是求一个线性函数使得直线能够最佳拟合样本点，那么我们能不能认为最佳的直线就是回归后的直线呢？回归时我们的最小二乘法度量的是样本点到直线的坐标轴距离。比如这个问题中，特征是x，类标签是y。回归时最小二乘法度量的是距离d。如果使用回归方法来度量最佳直线，那么就是直接在原始样本上做回归了，跟特征选择就没什么关系了。因此，我们打算选用另外一种评价直线好坏的方法，阅读全文

posted @ 2011-04-18 21:19 JerryLead 阅读(42745) 评论(10) 推荐(10)

主成分分析（Principal components analysis）-最大方差解释

摘要：在这一篇之前的内容是《Factor Analysis》，由于非常理论，打算学完整个课程后再写。在写这篇之前，我阅读了PCA、SVD和LDA。这几个模型相近，却都有自己的特点。本篇打算先介绍PCA，至于他们之间的关系，只能是边学边体会了。PCA以前也叫做Principal factor analysis。1. 问题真实的训练数据总是存在各种各样的问题：1、比如拿到一个汽车的样本，里面既有以“千米/每小时”度量的最大速度特征，也有“英里/小时”的最大速度特征，显然这两个特征有一个多余。2、拿到一个数学系的本科生期末考试成绩单，里面有三列，一列是对数学的兴趣程度，一列是复习时间，还有一列是考. 阅读全文

posted @ 2011-04-18 21:11 JerryLead 阅读(177788) 评论(36) 推荐(51)

在线学习（Online Learning）

摘要：原题目叫做The perception and large margin classifiers，其实探讨的是在线学习。这里将题目换了换。以前讨论的都是批量学习（batch learning），就是给了一堆样例后，在样例上学习出假设函数h。而在线学习就是要根据新来的样例，边学习，边给出结果。假设样例按照到来的先后顺序依次定义为。X为样本特征，y为类别标签。我们的任务是到来一个样例x，给出其类别结果y的预测值，之后我们会看到y的真实值，然后根据真实值来重新调整模型参数，整个过程是重复迭代的过程，直到所有的样例完成。这么看来，我们也可以将原来用于批量学习的样例拿来作为在线学习的样例。在在线学习. 阅读全文

posted @ 2011-04-18 20:20 JerryLead 阅读(37321) 评论(3) 推荐(2)

（EM算法）The EM Algorithm

摘要： EM是我一直想深入学习的算法之一，第一次听说是在NLP课中的HMM那一节，为了解决HMM的参数估计问题，使用了EM算法。在之后的MT中的词对齐中也用到了。在Mitchell的书中也提到EM可以用于贝叶斯网络中。下面主要介绍EM的整个推导过程。1. Jensen不等式回顾优化理论中的一些概念。设f是定义域为实数的函数，如果对于所有的实数x，，那么f是凸函数。当x是向量时，如果其hessian矩阵H是半正定的（），那么f是凸函数。如果或者，那么称f是严格凸函数。 Jensen不等式表述如下：如果f是凸函数，X是随机变量，那么特别地，如果f是严格凸函数，那么当且仅当，也就是说X是常量。这里. 阅读全文

posted @ 2011-04-06 16:18 JerryLead 阅读(296113) 评论(59) 推荐(109)

混合高斯模型（Mixtures of Gaussians）和EM算法

摘要：这篇讨论使用期望最大化算法（Expectation-Maximization）来进行密度估计（density estimation）。与k-means一样，给定的训练样本是，我们将隐含类别标签用表示。与k-means的硬指定不同，我们首先认为是满足一定的概率分布的，这里我们认为满足多项式分布，，其中，有k个值{1,…,k}可以选取。而且我们认为在给定后，满足多值高斯分布，即。由此可以得到联合分布。整个模型简单描述为对于每个样例，我们先从k个类别中按多项式分布抽取一个，然后根据所对应的k个多值高斯分布中的一个生成样例，。整个过程称作混合高斯模型。注意的是这里的仍然是隐含随机变量。模型中还有. 阅读全文

posted @ 2011-04-06 16:07 JerryLead 阅读(90859) 评论(21) 推荐(26)

K-means聚类算法

摘要： K-means也是聚类算法中最简单的一种了，但是里面包含的思想却是不一般。最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中，那本书比较注重应用。看了Andrew Ng的这个讲义后才有些明白K-means后面包含的EM思想。聚类属于无监督学习，以往的回归、朴素贝叶斯、SVM等都是有类别标签y的，也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定y，只有特征x，比如假设宇宙中的星星可以表示成三维空间中的点集。聚类的目的是找到每个样本x潜在的类别y，并将同类别y的样本x放在一起。比如上面的星星，聚类后结果是一个个星团，星团里面的点相互距离比较近，星团间的星星距离就比较远了。在. 阅读全文

posted @ 2011-04-06 15:57 JerryLead 阅读(363072) 评论(22) 推荐(56)

规则化和模型选择（Regularization and model selection）

摘要： 1 问题模型选择问题：对于一个学习问题，可以有多种模型选择。比如要拟合一组样本点，可以使用线性回归，也可以用多项式回归。那么使用哪种模型好呢（能够在偏差和方差之间达到平衡最优）？还有一类参数选择问题：如果我们想使用带权值的回归模型，那么怎么选择权重w公式里的参数？形式化定义：假设可选的模型集合是，比如我们想分类，那么SVM、logistic回归、神经网络等模型都包含在M中。 2 交叉验证（Cross validation）我们的第一个任务就是要从M中选择最好的模型。假设训练集使用S来表示如果我们想使用经验风险最小化来度量模型的好坏，那么我们可以这样来选择模型： 1、使用S来训练每阅读全文

posted @ 2011-03-27 11:51 JerryLead 阅读(28255) 评论(1) 推荐(10)

公告

导航