nolonely

2016年12月20日

摘要： (1)支持向量的基本形式对于一个分类问题，如果用PLA算法，可能会有多种分类策略，如下图所示，很明显，第三个图是一个最佳的分类策略，因为在第三个图中，边界上的数据允许的测量误差可以更大一些。对未见示例的泛化性更强。这种方法就是支持向量机。我们想要得到的是找到一条直线能够把样本数据正确的分开，而且阅读全文

posted @ 2016-12-20 08:29 nolonely 阅读(611) 评论(0) 推荐(0) 编辑

2016年12月15日

梯度下降法和随机梯度下降法

摘要： (1)梯度下降法在迭代问题中，每一次更新w的值，更新的增量为ηv，其中η表示的是步长，v表示的是方向要寻找目标函数曲线的波谷，采用贪心法：想象一个小人站在半山腰，他朝哪个方向跨一步，可以使他距离谷底更近（位置更低），就朝这个方向前进。这个方向可以通过微分得到。选择足够小的一段曲线，可以将这段看做阅读全文

posted @ 2016-12-15 17:50 nolonely 阅读(45485) 评论(0) 推荐(1) 编辑

多分类问题multicalss classification

摘要：多分类问题：有N个类别C1,C2,...,Cn,多分类学习的基本思路是“拆解法”，即将多分类任务拆分为若干个而分类任务求解，最经典的拆分策略是：“一对一”，“一对多”，“多对多” (1)一对一给定数据集D={(x1,y1),(x2,y2),...,(xn,yn)},yi€{c1,c2,...,cN 阅读全文

posted @ 2016-12-15 15:44 nolonely 阅读(16179) 评论(0) 推荐(1) 编辑

2016年12月14日

线性模型

摘要：这里主要总结Linear Regression，Linear Classification，Logistic Regression。 1.Linear Regression 线性回归的基本思想：寻找直线/平面/超平面，使得输入数据的残差最小线性回归算法：最终的线性回归的结果为：其中：X+ 的求阅读全文

posted @ 2016-12-14 21:34 nolonely 阅读(729) 评论(0) 推荐(0) 编辑

2016年12月13日

Noise，Error，wighted pocket Algorithm

摘要：错误衡量（Error Measure）有两种错误计算方法：第一种叫0/1错误，只要【预测≠目标】则认为犯错，通常用于分类；通常选择，错误比较大的值作为y˜的值第二种叫平方错误，它衡量【预测与目标之间的距离】，通常用于回归。通常选择，错误均值作为y˜的值举例说明：还有一种错误叫做，均值错误e 阅读全文

posted @ 2016-12-13 11:28 nolonely 阅读(380) 评论(0) 推荐(0) 编辑

2016年12月12日

VC Dimension -衡量模型与样本的复杂度

摘要： (1)定义VC Dimension： dichotomies数量的上限是成长函数，成长函数的上限是边界函数：所以VC Bound可以改写成：下面我们定义VC Dimension：对于某个备选函数集H，VC Dimension就是它所能shatter的最大数据个数N。VC Dimension = 阅读全文

posted @ 2016-12-12 18:56 nolonely 阅读(3772) 评论(0) 推荐(0) 编辑

边界函数Bounding Function（成长函数的上界）

摘要：根据成长函数的定义，猜测 ——>break point K restricts maximum possible mh(N) a lot for N>k bounding functionB(N, k): maximum possible mH(N) when break point = k 下面是阅读全文

posted @ 2016-12-12 15:08 nolonely 阅读(1504) 评论(0) 推荐(0) 编辑

无限的hypotheses 变成有限的dichotomies

摘要：给定任意D，它是某些H的Bad Sample（即Ein和Eout不接近）的概率为：即H中备选函数的数量M=|H|越少，样本数据量N越大，则样本成为坏样本的概率越小。在一个可接受的概率水平上，学习算法A只需要挑选那个表现最好的h作为g就行了。挑选出最好的g需要满足两个条件：找到一个假设g使得Eou 阅读全文

posted @ 2016-12-12 11:10 nolonely 阅读(579) 评论(0) 推荐(0) 编辑

2016年12月10日

霍夫丁不等式与真实的机器学习

摘要： 1.霍夫丁不等式在一个罐子里，放着很多小球，他们分两种颜色{橘色，绿色}。从罐中随机抓N个小球。设：罐中橘色球的比例为μ(未知)，抓出来的样本中橘色球的比例为ν（已知）。根据概率论中的霍夫丁不等式(Hoeffding’s Inequality)若N足够大，ν就很可能接近μ。同理的，在机器学习中：阅读全文

posted @ 2016-12-10 11:11 nolonely 阅读(7149) 评论(0) 推荐(0) 编辑

感知器算法PLA

摘要： for batch&supervised binary classfication，g≈f <=> Eout(g)≥0 achieved through Eout(g)≈Ein(g) and Ein(g)≈0 其中Ein是某一个备选函数h在数据D上犯错误的比例，在整个数据集上犯错误的比例为Eout 阅读全文

posted @ 2016-12-10 10:42 nolonely 阅读(6935) 评论(0) 推荐(0) 编辑

很多时候不是我们做不好，而是没有竭尽全力......