机器学习第四章学习笔记
惯例开始的废话
真的不开学了吗,家里蹲一学期?顶不住了
作业part2
第三章写过了,就写写第四章的学习笔记吧
第四章主线
生成模型
- 第三章主要介绍的贝叶斯决策是生成模型,而生成模型有优势,但是也有诸多的劣势
譬如高纬需要大量样本,但是随着维度的升高,样本的量是指数级增长。所以对于一些复杂情况,就需要判别模型。
判别模型不仅不需要大量的样本,而且还省去了观测似然概率的估计
然后介绍了线性判据,代入判别表达式,fx<0和fx>0为两类,
但是运用条件肯定是两类或者多类要线性可分,如果线性不可分的情况,那么线性判据就失效了。
一般线性判据,如果是二维,就是直线,三维是平面,高纬就是超平面
而其中两个重要参数w和w0,就是主要要求得的参数,得到之后,线性分类器也就得到了
解域的概念
而在学习的过程中,首先的问题就是解域
这两个参数的解究竟在哪个范围,确定了范围再求出最优解
也就是在解域中求得最优解
并行感知机or串行感知机
*首先对于数据预处理,使两类在超平面的同一侧
*并行感知机和串行感知机是以样本的给出方式划分的,样本一次全部给出称为并行,一个一个给出称为串行
而使用的求解w和w0的算法类似,而且目标函数都是一致的,也就是目的都是一致的,使得被错误分类的样本尽可能少
并行感知机
并行感知机的算法是,目标函数对于参数求偏导,当偏导数为0,则求得极值。
当然要求目标函数是凸函数或者凹函数,不然会出现求得的值并不是最优解的情况。
而并行感知机算法中的参数的求解使用的是梯度下降法,其中步长的选取很重要
步长小了,迭代次数很多,学习很慢,步长大了,会越过极值点,产生震荡。
而迭代过程的停止条件,所有训练样本代入判别函数,都>0
或者更新的目标函数值小于某个可以接受的误差值
更常用的一种方法是迭代一定的次数就停止
串行感知机
目标函数和并行感知机相同
而算法也类似,只是学习过程不太一致,是一个一个去学习样本,调整参数
感知机的收敛
也就是前面的说的最后求出的解,究竟是极值还是最值,这边给出了一个判据
感知机的泛化
加入约束条件,避免要求解的参数为0
好像没有正面,我也不懂为什么,QWQ
Fisher判据
这个,在我的理解中,是一种不同的找出线性判据的方法而已,算是数据清洗吧,我觉得
主要就是利用一些方法进行降维,然后尽量增大类间距离(类间散度),减小类内距离(类内散度)
其中的目标函数也是根据这个思路设计的,然后求解思路还是目标函数对待求参数求偏导,差不多
支持向量机
大概设计用来和Fisher差不多,也是增大类间散度吧,我觉得目的是相近的
但是方法有差异,支持向量机,是选两类中距离决策边界最大的训练样本,使这两个向量距离尽可能大,来达到增大类间散度的目的。这两个向量被称作支持向量。
而目标函数当然就是,这个距离d。
但是还存在着约束条件,就是样本代入判别函数,大于1(对数据和判别函数进行了处理,所以不是大于0),也就是能够对所有样本进行正确分类。然后就涉及到了,约束条件下的最优求解问题。
拉格朗日乘数法
这个方法,我记得大一高数就学过,用来求解条件下的最优解
而这里的方法是同样的,将约束条件乘以变量,比如c
- 然后fx=目标函数+c*约束条件
- fx对x求偏导
- fx对c求偏导
这种方法,如果是多个约束条件,就对其余的约束条件做相同操作。
而使用的时候,要分不同的情况,所以需要提前求解出极值点,就是目标函数对x求偏导,使其为0 - 极值点在可行域内,则直接取极值点就可以
- 极值点在可行域边界,要在该点出,fx和gx负梯度方向相反
拉格朗日对偶问题
在拉格朗日问题中,可能会出现对于约束条件进行操作后,仍有约束条件的可能,也就是拉格朗日函数带有约束条件
那么就需要拉格朗日对偶法,进行求解
方法是求得主函数L的下界,然后求下界对约束条件系数的最大值
使用对偶函数还有另一个优点,就是对偶函数是凹函数,可以保证局部极值点就是全局极值点
支持向量机学习算法
这一节,主要就是使用拉格朗日对偶方法对支持向量机进行求解
求得最佳的w和w0
然后
然后就没了,线性模型是否可以用于回归问题
当然是可以的,但是老师没继续录了,gg