摘要:
1 回顾 上一节我们证明了,当假设空间的大小是M时,可以得到概率上界: 即,只要训练数据量N足够大,那么训练集上的Ein与真实的预测错误率Eout是PAC(大概率)接近的。 但是,我们上面的理论只有在假设空间大小有限时才成立,如果假设空间无限大,右边的概率上界就会变成无限大。 事实上,右边的边界是一 阅读全文
摘要:
1 Hoeffding不等式 假设有一个罐子装满了橙色和绿色的球,为了估计罐子中橙色和绿色的比例,我们随机抓一把球,称为样本: 其中,设罐子中橙色球的比例为μ,样本中橙色球比例为v,样本的大小为N,我们对真实分布μ和样本分布v的差异容忍度为ε,则有下面的不等式成立: 也就是存在一个概率上界,只要我们 阅读全文
摘要:
1 从输入空间分类 (1)二元分类问题 (2)多元分类问题 (3)回归问题 (4)structure learning 2 从是否监督分类 (1)有监督学习 (2)无监督学习 聚类 约等于无监督的多元分类 密度估计 约等于无监督的回归分析 异常检测 约等于无监督的二元分类 (3)半监督学习 训练集部 阅读全文
摘要:
1 推导感知机模型 基本思想是,把特征的线性加权值作为一个分数,根据这个分数与一个门限值的关系来进行分类: 我们加一个特征x0等于1,门限值就可以放到w里面去,得到更简单的形式: 这就是感知机模型,对应一个分离超平面。 2 如何来学习感知机 “知错能改”原则:找到一个误分类点,就尝试去修正它。具体的 阅读全文
摘要:
http://www.jianshu.com/p/c97ff0ab5f49 总结shuffle 过程: map端的shuffle: (1)map端产生数据,放入内存buffer中; (2)buffer满的时候,将buffer里面的数据按照key来快排,然后写到磁盘中; (3)上面每次buffer满都 阅读全文
摘要:
1 为什么随机梯度下降法能work? https://www.zhihu.com/question/27012077中回答者李文哲的解释 2 随机梯度下降法的好处? (1)加快训练速度(2)噪音可以使得跳出局部最优 3 权衡方差和偏差: 偏差反映的是模型的准确度(对训练数据的吻合程度),方差则反映模 阅读全文
摘要:
1. soft-margin SVM的形式 其中ξn表示每个点允许的犯错程度(偏离margin有多远),但是犯错是有代价的,也就是目标函数里面要最小化的。c控制对犯错的容忍程度。 2. 推导soft SVM的对偶问题 首先写出拉格朗日函数: 可以推导出对偶问题为: 即: 最优解满足KKT条件: 代入 阅读全文
摘要:
1.对偶问题的推导 为什么要求解对偶问题?一是对偶问题往往更容易求解,二是可以自然的引入核函数。 1.1 用拉格朗日函数将原问题转化为“无约束”等价问题 原问题是: 写出它的拉格朗日函数: 然后我们的原问题就等价为: 为什么可以这样等价: 即:对于不满足约束条件的(b,w),min里面趋于无穷大,因 阅读全文
摘要:
(本文内容和图片来自林轩田老师《机器学习技法》) 1. 线性SVM的推导 1.1 形象理解为什么要使用间隔最大化 容忍更多的测量误差,更加的robust。间隔越大,噪声容忍度越大: 1.2 SVM的问题描述 表示为正式的形式,就是: 1.3 推导点到平面的距离 因此,由于约束条件1,距离里面的绝对值 阅读全文
摘要:
(本文内容和图片来自林轩田老师《机器学习技法》) 1. 核技巧引入 如果要用SVM来做非线性的分类,我们采用的方法是将原来的特征空间映射到另一个更高维的空间,在这个更高维的空间做线性的SVM。即: 在这里我们计算这个向量内积有两种方法:一种是对Φ(x)给出明确的定义,分别算出两个高维向量,再做内积; 阅读全文