coldyan

2017年1月3日

摘要： 1 回顾上一节我们证明了，当假设空间的大小是M时，可以得到概率上界：即，只要训练数据量N足够大，那么训练集上的Ein与真实的预测错误率Eout是PAC（大概率）接近的。但是，我们上面的理论只有在假设空间大小有限时才成立，如果假设空间无限大，右边的概率上界就会变成无限大。事实上，右边的边界是一阅读全文

posted @ 2017-01-03 15:25 coldyan 阅读(463) 评论(0) 推荐(0) 编辑

2017年1月2日

《机器学习基石》---理解机器为什么能学习（一）

摘要： 1 Hoeffding不等式假设有一个罐子装满了橙色和绿色的球，为了估计罐子中橙色和绿色的比例，我们随机抓一把球，称为样本：其中，设罐子中橙色球的比例为μ，样本中橙色球比例为v，样本的大小为N，我们对真实分布μ和样本分布v的差异容忍度为ε，则有下面的不等式成立：也就是存在一个概率上界，只要我们阅读全文

posted @ 2017-01-02 23:05 coldyan 阅读(1235) 评论(0) 推荐(0) 编辑

2017年1月1日

《机器学习基石》---机器学习的类型

摘要： 1 从输入空间分类（1）二元分类问题（2）多元分类问题（3）回归问题（4）structure learning 2 从是否监督分类（1）有监督学习（2）无监督学习聚类约等于无监督的多元分类密度估计约等于无监督的回归分析异常检测约等于无监督的二元分类（3）半监督学习训练集部阅读全文

posted @ 2017-01-01 10:54 coldyan 阅读(212) 评论(0) 推荐(0) 编辑

2016年12月25日

《机器学习基石》---感知机算法

摘要： 1 推导感知机模型基本思想是，把特征的线性加权值作为一个分数，根据这个分数与一个门限值的关系来进行分类：我们加一个特征x0等于1，门限值就可以放到w里面去，得到更简单的形式：这就是感知机模型，对应一个分离超平面。 2 如何来学习感知机 “知错能改”原则：找到一个误分类点，就尝试去修正它。具体的阅读全文

posted @ 2016-12-25 19:32 coldyan 阅读(403) 评论(0) 推荐(0) 编辑

2016年12月19日

mapReduce的shuffle过程

摘要： http://www.jianshu.com/p/c97ff0ab5f49 总结shuffle 过程： map端的shuffle：（1）map端产生数据，放入内存buffer中；（2）buffer满的时候,将buffer里面的数据按照key来快排，然后写到磁盘中; (3)上面每次buffer满都阅读全文

posted @ 2016-12-19 21:23 coldyan 阅读(226) 评论(0) 推荐(0) 编辑

机器学习tips

摘要： 1 为什么随机梯度下降法能work？ https://www.zhihu.com/question/27012077中回答者李文哲的解释 2 随机梯度下降法的好处？（1）加快训练速度（2）噪音可以使得跳出局部最优 3 权衡方差和偏差：偏差反映的是模型的准确度（对训练数据的吻合程度），方差则反映模阅读全文

posted @ 2016-12-19 00:00 coldyan 阅读(355) 评论(0) 推荐(0) 编辑

2016年12月10日

《机器学习技法》---soft-margin SVM

摘要： 1. soft-margin SVM的形式其中ξn表示每个点允许的犯错程度（偏离margin有多远），但是犯错是有代价的，也就是目标函数里面要最小化的。c控制对犯错的容忍程度。 2. 推导soft SVM的对偶问题首先写出拉格朗日函数：可以推导出对偶问题为：即：最优解满足KKT条件：代入阅读全文

posted @ 2016-12-10 21:27 coldyan 阅读(515) 评论(0) 推荐(0) 编辑

2016年12月8日

《机器学习技法》---对偶SVM

摘要： 1.对偶问题的推导为什么要求解对偶问题？一是对偶问题往往更容易求解，二是可以自然的引入核函数。 1.1 用拉格朗日函数将原问题转化为“无约束”等价问题原问题是：写出它的拉格朗日函数：然后我们的原问题就等价为：为什么可以这样等价：即：对于不满足约束条件的（b,w），min里面趋于无穷大，因阅读全文

posted @ 2016-12-08 00:04 coldyan 阅读(680) 评论(0) 推荐(0) 编辑

2016年12月7日

《机器学习技法》---线性SVM

摘要：（本文内容和图片来自林轩田老师《机器学习技法》） 1. 线性SVM的推导 1.1 形象理解为什么要使用间隔最大化容忍更多的测量误差，更加的robust。间隔越大，噪声容忍度越大： 1.2 SVM的问题描述表示为正式的形式，就是： 1.3 推导点到平面的距离因此，由于约束条件1，距离里面的绝对值阅读全文

posted @ 2016-12-07 22:22 coldyan 阅读(219) 评论(0) 推荐(0) 编辑

《机器学习技法》---核型SVM

摘要：（本文内容和图片来自林轩田老师《机器学习技法》） 1. 核技巧引入如果要用SVM来做非线性的分类，我们采用的方法是将原来的特征空间映射到另一个更高维的空间，在这个更高维的空间做线性的SVM。即：在这里我们计算这个向量内积有两种方法：一种是对Φ(x)给出明确的定义，分别算出两个高维向量，再做内积；阅读全文

posted @ 2016-12-07 19:10 coldyan 阅读(443) 评论(0) 推荐(0) 编辑

公告