周志华老师《机器学习》复习要点(持续更新)
周志华老师《机器学习》复习要点
第6章:支持向量机
- 6.1 间隔与支持向量:
- 超平面的方程是什么?(设w与x都是列向量)同一个超平面是有无穷组(w,b)吗?什么变换可以由其中一组得到所有组?
- 超平面的方向由w完全确定吗?原点到超平面的距离由w决定还是w和b共同决定?
- 为什么对于超平面两侧的点的判别式的右侧可以直接令为正负1?
- 什么是支持向量?
- 当被优化目标被转化为1/2倍的w平方的时候,这个问题变成了什么规划问题?
- 6.2 对偶问题:
- 拉格朗日乘数法针对的是什么优化问题?
- 引入乘子后,可以将d个变量和k个约束转化为什么问题?
- 什么是KKT条件?
- 什么时候需要引入KKT条件?
- 能不能快速写出m个等式约束和n个不等式约束的对偶问题对应的KKT条件?
- 对偶函数与主问题最优值的关系是什么?
- 无论主问题是不是凸优化问题,对偶问题一定都是凸优化问题吗?
- 什么是弱对偶性,什么是强对偶性,举出一种常见的满足强对偶性的主问题需要满足的条件?
- 对于基本的线性可分的SVM模型,KKT条件决定了SVM的什么性质?
- SMO算法的基本思路是什么?
- 6.3 核函数:
- 什么是核函数?
- 为什么要引入核函数?
- 核函数一定存在吗?
- 有哪些常见的核函数?
- 核函数决定的高维特征空间可能是无穷维吗?
- 为什么说核函数的选择是SVM使用时最大的变数?
- 现实任务中,关于核函数的选择,我们应该在哪两个问题中做权衡,换句话说,高维空间内线性可分会不会是过拟合导致的?
- 6.4 软间隔与正则化:
- 软间隔与松弛变量的关系是什么?
- 那些不满足约束条件的变量一开始是靠什么函数放进优化目标函数里的?
- 实际中我们应该使用它吗?
- 常见用于替代0,1符号变量的替代损失函数有哪些?
- SVM选择哪个?
- 之所以选择它是因为只有它保证了SVM的什么性质?
- 由软间隔与正则化引申出的此类机器学习模型的通用解释是什么?(结构风险最小化与经验风险最小化之间的权衡)
- L2范数倾向于使数据?
- 而L1和L0范数倾向于使数据?
-
6.5 支持向量回归:
-
6.6 核方法:
-
习题:
第5章:神经网络
- 5.3 误差反向传播算法:
- 多层前馈网络的输入层神经元个数与输出层神经元个数由什么决定?
- 对于输入层,隐含层,输出层分别有d,q,l个神经元的神经网络,一共有多少个参数需要确定?
- sigmoid一个关于求导的优良特性是?
- 恒定学习率的多层前馈网络的超参数有几个?
- 如何初始化网络权值和阈值?
- 能否有两个神经元的初始化的值相等?
- 能否快速写出单隐含层前馈神经网络的伪代码?
- 累积误差BP算法与标准BP算法的区别?优缺点?如何选择?
- 神经网络的强大表示能力同时带来的缺点是什么?
- 一般来说,解决这个问题的两种思路是?
- 5.4 全局最小与局部极小:
- 常用的用来跳出局部极小值的技术有?
- 5.5 几种常见的其他神经网络:
- RBF网络是靠增加隐含层神经元还是增加隐含层数来实现逼近任意函数的?
- 什么是径向基函数?
- 训练RBF神经网络与普通的多层前馈网络有什么区别?
- ART网络
- SOM网络
- 网络级联
- Elman网络(RNN递归神经网络)