摘要:
(1)支持向量的基本形式 对于一个分类问题,如果用PLA算法,可能会有多种分类策略,如下图所示,很明显,第三个图是一个最佳的分类策略,因为在第三个图中,边界上的数据允许的测量误差可以更大一些。对未见示例的泛化性更强。这种方法就是支持向量机。 我们想要得到的是找到一条直线能够把样本数据正确的分开,而且 阅读全文
摘要:
(1)梯度下降法 在迭代问题中,每一次更新w的值,更新的增量为ηv,其中η表示的是步长,v表示的是方向 要寻找目标函数曲线的波谷,采用贪心法:想象一个小人站在半山腰,他朝哪个方向跨一步,可以使他距离谷底更近(位置更低),就朝这个方向前进。这个方向可以通过微分得到。选择足够小的一段曲线,可以将这段看做 阅读全文
摘要:
多分类问题:有N个类别C1,C2,...,Cn,多分类学习的基本思路是“拆解法”,即将多分类任务拆分为若干个而分类任务求解,最经典的拆分策略是:“一对一”,“一对多”,“多对多” (1)一对一 给定数据集D={(x1,y1),(x2,y2),...,(xn,yn)},yi€{c1,c2,...,cN 阅读全文
摘要:
这里主要总结Linear Regression,Linear Classification,Logistic Regression。 1.Linear Regression 线性回归的基本思想:寻找直线/平面/超平面,使得输入数据的残差最小 线性回归算法: 最终的线性回归的结果为: 其中:X+ 的求 阅读全文
摘要:
错误衡量(Error Measure) 有两种错误计算方法: 第一种叫0/1错误,只要【预测≠目标】则认为犯错,通常用于分类;通常选择,错误比较大的值作为y˜的值 第二种叫平方错误,它衡量【预测与目标之间的距离】,通常用于回归。通常选择,错误均值作为y˜的值 举例说明: 还有一种错误叫做,均值错误e 阅读全文
摘要:
(1)定义VC Dimension: dichotomies数量的上限是成长函数,成长函数的上限是边界函数: 所以VC Bound可以改写成: 下面我们定义VC Dimension: 对于某个备选函数集H,VC Dimension就是它所能shatter的最大数据个数N。VC Dimension = 阅读全文
摘要:
根据成长函数的定义,猜测 ——>break point K restricts maximum possible mh(N) a lot for N>k bounding functionB(N, k): maximum possible mH(N) when break point = k 下面是 阅读全文
摘要:
给定任意D,它是某些H的Bad Sample(即Ein和Eout不接近)的概率为: 即H中备选函数的数量M=|H|越少,样本数据量N越大,则样本成为坏样本的概率越小。在一个可接受的概率水平上,学习算法A只需要挑选那个表现最好的h作为g就行了。 挑选出最好的g需要满足两个条件:找到一个假设g使得Eou 阅读全文
摘要:
1.霍夫丁不等式 在一个罐子里,放着很多小球,他们分两种颜色{橘色,绿色}。从罐中随机抓N个小球。设:罐中橘色球的比例为μ(未知),抓出来的样本中橘色球的比例为ν(已知)。根据概率论中的霍夫丁不等式(Hoeffding’s Inequality)若N足够大,ν就很可能接近μ。 同理的,在机器学习中: 阅读全文
摘要:
for batch&supervised binary classfication,g≈f <=> Eout(g)≥0 achieved through Eout(g)≈Ein(g) and Ein(g)≈0 其中Ein是某一个备选函数h在数据D上犯错误的比例,在整个数据集上犯错误的比例为Eout 阅读全文