随笔分类 - Machine Learning
摘要:这次介绍的是Alex和Alessandro于2014年发表在的Science上的一篇关于聚类的文章[13],该文章的基本思想很简单,但是其聚类效果却兼具了谱聚类(Spectral Clustering)[11,14,15]和K-Means的特点,着实激起了我的极大的兴趣,该聚类算法主要是基于两个基本点:1)聚类中心的密度高于其临近的样本点的密度;2)聚类中心与比其密度还高的聚类中心的距离相对较大.基于这个思想,聚类过程中的聚类中心数目可以很直观的选取,离群点也能被自动检测出来并排除在聚类分析外。无论每个聚类的形状是什么样的,或者样本点的维度是多少,聚类分析的结果都能令人很满意。下面我会主要基于这篇文章来详述该聚类算法的来龙去脉,并简单回顾下相关的聚类算法。最后,基于这篇文章思想,我最终用C++代码实现了一个比较完整的聚类算法,并作为我在GitHub上的first repository上传到了GitHub上面,有需要的请前往https://github.com/jeromewang-github/cluster-science2014下载,欢迎大家找出bug和提供修改意见!
阅读全文
摘要:Markov Chain马尔科夫链(Markov chain)是一个具有马氏性的随机过程,其时间和状态参数都是离散的。马尔科夫链可用于描述系统在状态空间中的各种状态之间的转移情况,其中下一个状态仅依赖于当前状态。因为系统是随机变化的,所以不可能百分百预测出未来某个时刻的系统状态,但是我们可以预测出未...
阅读全文
摘要:Gradient Descent机器学习中很多模型的参数估计都要用到优化算法,梯度下降是其中最简单也用得最多的优化算法之一。梯度下降(Gradient Descent)[3]也被称之为最快梯度(Steepest Descent),可用于寻找函数的局部最小值。梯度下降的思路为,函数值在梯度反方向下降是...
阅读全文
摘要:Empiricial Risk Minimization统计学习理论是整个机器学习到框架。试想我们学习的目的是什么呢?当然是为了具备用合理的方式处理问题的能力。统计学习理论要解决的问题就是基于数据找到一个预测函数。经验风险最小化(Empiricial Risk Minimization,ERM)[2...
阅读全文
摘要:A simple actions recognition system based on PCA, MHI and SVM.
阅读全文
摘要:Jensen不等式Jensen不等式给出了积分的凸函数值必定大于凸函数(convex)的积分值的定理。在凸函数曲线上的任意两点间连接一条线段,那么线段会位于曲线之上,这就是将Jensen不等式应用到两个点的情况,如图(1)所示(t∈[0,1])。我们从概率论的角度来描述Jensen不等式...
阅读全文
摘要:在监督学习中,有标签信息协助机器学习同类样本之间存在的共性,在预测时只需判定给定样本与哪个类别的训练样本最相似即可。在非监督学习中,不再有标签信息的指导,遇到一维或二维数据的划分问题,人用肉眼就很容易完成,可机器就傻眼了,图(1)描述得很形象。但处理高维度的数据,人脑也无能为力了,最终还是得设计算法...
阅读全文
摘要:朴素贝叶斯的核心基础理论就是贝叶斯理论和条件独立性假设,在文本数据分析中应用比较成功。朴素贝叶斯分类器实现起来非常简单,虽然其性能经常会被支持向量机等技术超越,但有时也能发挥出惊人的效果。所以,在将朴素贝叶斯排除前,最好先试试,大家常将其作为一个比较的基准线。本文会结合垃圾邮件分来来详解朴素贝叶斯,...
阅读全文
摘要:在学习了前面讲到的将logistic函数用到分类问题中的文章后,你可能想知道为什么会冒出这样的模型,为什么这种模型是合理的。接下来,我们会答疑解惑,证明logistic回归和softmax回归只是广义线性模型(Generalized Linear Model,GLM)的一种特例,它们都是在广义线性模...
阅读全文
摘要:导言用logistic回归解决二分类问题时,后验概率P(y=1|x;θ)由logistic函数hθ(x)=g(θTx)给出。当且仅当hθ(x)≥0.5也就是θTx≥0时,我们预测样本类别标签\(...
阅读全文
摘要:如果在我们的分类问题中,输入特征x是连续型随机变量,高斯判别模型(Gaussian Discriminant Analysis,GDA)就可以派上用场了。以二分类问题为例进行说明,模型建立如下:样本输入特征为x∈Rn,其类别y∈{0,1};样本类别...
阅读全文
摘要:简单回顾一下线性回归。我们使用了如下变量:x—输入变量/特征;y—目标变量;(x,y)—单个训练样本;m—训练集中的样本数目;n—特征维度;(x(i),y(i))—第i个训练样本。在接下来的内容中,仍沿用这些标识。我们给定的模型假设...
阅读全文
摘要:假设我们有一张房子属性及其价格之间的关系表(如下图所示) ,根据这些数据如何估计其他房子的价格?我们的第一个反应肯定是参考属性相似的房子的价格。在属性较少时这个方法还行得通,属性太复杂时就不那么简单了。很显然,我们最终目的是根据这些数据学习到房子属性和价格之间的某种关系,然后利用这种关系预测其他房子...
阅读全文
摘要:在求最优解时,前面很多地方都用梯度下降(Gradient Descent)的方法,但由于最优步长很难确定,可能会出现总是在最优解附近徘徊的情况,致使最优解的搜索过程很缓慢。牛顿法(Newton's Method)在最优解的搜索方面有了较大改进,它不仅利用了目标函数的一阶导数,还利用了搜索点处的二阶导...
阅读全文
摘要:分类(Classification)与回归都属于监督学习,两者的唯一区别在于,前者要预测的输出变量y只能取离散值,而后者的输出变量是连续的。这些离散的输出变量在分类问题中通常称之为标签(Label)。线性回归的策略同样也适用于分类吗?答案是否定的。下面结合例子简要说明理由。假设我们现在的任务...
阅读全文
摘要:机器学习(Machine Learning)最早起源于人工智能(Artificial Intelligence,AI),其核心在于构造学习算法(Learning Algorithm),使得机器可以自动从训练数据中进行学习以完成特定任务。机器学习的定义1959年,Arthur Samuel将机器学习定...
阅读全文