摘要:
Jensen不等式Jensen不等式给出了积分的凸函数值必定大于凸函数(convex)的积分值的定理。在凸函数曲线上的任意两点间连接一条线段,那么线段会位于曲线之上,这就是将Jensen不等式应用到两个点的情况,如图(1)所示\((t\in[0,1])\)。我们从概率论的角度来描述Jensen不等式... 阅读全文
摘要:
在监督学习中,有标签信息协助机器学习同类样本之间存在的共性,在预测时只需判定给定样本与哪个类别的训练样本最相似即可。在非监督学习中,不再有标签信息的指导,遇到一维或二维数据的划分问题,人用肉眼就很容易完成,可机器就傻眼了,图(1)描述得很形象。但处理高维度的数据,人脑也无能为力了,最终还是得设计算法... 阅读全文
摘要:
朴素贝叶斯的核心基础理论就是贝叶斯理论和条件独立性假设,在文本数据分析中应用比较成功。朴素贝叶斯分类器实现起来非常简单,虽然其性能经常会被支持向量机等技术超越,但有时也能发挥出惊人的效果。所以,在将朴素贝叶斯排除前,最好先试试,大家常将其作为一个比较的基准线。本文会结合垃圾邮件分来来详解朴素贝叶斯,... 阅读全文
摘要:
在学习了前面讲到的将logistic函数用到分类问题中的文章后,你可能想知道为什么会冒出这样的模型,为什么这种模型是合理的。接下来,我们会答疑解惑,证明logistic回归和softmax回归只是广义线性模型(Generalized Linear Model,GLM)的一种特例,它们都是在广义线性模... 阅读全文
摘要:
导言用logistic回归解决二分类问题时,后验概率\(P(y=1|x;\theta)\)由logistic函数\(h_\theta(x)=g(\theta^Tx)\)给出。当且仅当\(h_\theta(x)\geq 0.5\)也就是\(\theta^Tx\geq 0\)时,我们预测样本类别标签\(... 阅读全文
摘要:
从一个地方搬到另一个窝,我必定会带着我的Wordpress,这就涉及到博客的迁移了。首先申明,该文非原创,放在这里主要是为了方便自己日后再次需要转移博客时,能很快锁定文章目标。这篇文章主要介绍怎样将wordpress从一台服务器移动到另一台服务器。假定我们使用服务器的IP作为访问地址,现有服务器A(... 阅读全文
摘要:
如果在我们的分类问题中,输入特征$x$是连续型随机变量,高斯判别模型(Gaussian Discriminant Analysis,GDA)就可以派上用场了。以二分类问题为例进行说明,模型建立如下:样本输入特征为\(x\in\mathbb{R}^n\),其类别\(y\in\{0,1\}\);样本类别... 阅读全文
摘要:
简单回顾一下线性回归。我们使用了如下变量:\(x\)—输入变量/特征;\(y\)—目标变量;\((x,y)\)—单个训练样本;\(m\)—训练集中的样本数目;\(n\)—特征维度;\((x^{(i)},y^{(i)})\)—第\(i\)个训练样本。在接下来的内容中,仍沿用这些标识。我们给定的模型假设... 阅读全文
摘要:
图形是呈现数据的一种直观方式,在用Matlab进行数据处理和计算后,我们一般都会以图形的形式将结果呈现出来。尤其在论文的撰写中,优雅的图形无疑会为文章加分。本篇文章非完全原创,我的工作就是把见到的Matlab绘图代码收集起来重新跑一遍,修改局部错误,然后将所有的图贴上来供大家参考。大家可以先看图,有... 阅读全文
摘要:
假设我们有一张房子属性及其价格之间的关系表(如下图所示) ,根据这些数据如何估计其他房子的价格?我们的第一个反应肯定是参考属性相似的房子的价格。在属性较少时这个方法还行得通,属性太复杂时就不那么简单了。很显然,我们最终目的是根据这些数据学习到房子属性和价格之间的某种关系,然后利用这种关系预测其他房子... 阅读全文