大厂面试题目之正则化

收起

一、欠拟合

二、过拟合

三、正则化

四、总结

1、人工智能概念补充

2 、正则化补充

2.1 正则化的概念

2.2 正则化的作用

2.3 正则化的常见类型

2.4 关联概念

一、欠拟合

1、下列方法中，解决欠拟合的方法有哪些（CD）

A、正则化方法

B、集成学习方法

C、添加新特征

D、减少正则化系数

集成学习解决过拟合
欠拟合的原因：1.模型复杂度过低。2.特征量过少。
解决方法：增加模型复杂度，添加新特征

2、假如你用logistic Regression 算法去预测用户在网上的购买项目，然而，当你在新的用户集上验证你的假设时，你发现预测值有很大的偏差。并且你的假设在训练集上表现也很差，下面那些步骤你应该采纳，选择出正确的选项（ A ）

A、尝试着减小正则项 λ

B、尝试增加交叉特征

C、减小样本量

D、尝试更小的测试集或者特征

欠拟合：训练误差和验证误差都很大。
解决：增加特征项；增加模型复杂度,如使用核函数；减小正则化系数；集成学习方法。

二、过拟合

1、以下哪些方法有助于解决模型训练过程中的过拟合问题（ABCD）

A、正则化

B、Dropout

C、Batch Normalization

D、提前终止训练 E、梯度下降

Batch Normalization有两个功能，一个是可以加快训练和收敛速度，另外一个是可以防止过拟合。

2、在其他条件不变的前提下，以下哪种做法容易引起机器学习中的过拟合问题（ D ）

A、增加训练集量

B、减少神经网络隐藏层节点数

C、删除稀疏的特征

D、SVM算法中使用高斯核/RBF核代替线性核

造成过拟合的原因主要有：
1、训练数据不足，有限的训练数据
2、训练模型过度导致模型非常复杂，泛化能力差
选项D使得模型的复杂化，会充分训练数据导致过拟合

3、以下说法正确的是（ D ）

A、增加模型复杂度，模型在测试集上的准确率就能更好

B、L2正则化的解通常是稀疏的，L1正则化可以使得参数趋向于更平滑

C、对于PCA，我们应该选择是的模型具有最小variance的主成分

D、每次使用K-means算法得到的聚类结果可能会不一样

L1正则化可以产生稀疏权值矩阵，也就是产生一个稀疏模型，可以用于特征选择；
L2正则化可以防止模型过拟合，也就是拟合曲线更趋于平滑。
PCA应该选择协方差（Covariance）比较小的

4、当发现机器学习模型过拟合时，以下操作正确的是：（ ABC ）

A、降低特征维度

B、增加样本数量

C、添加正则项

D、增加特征维度

造成过拟合两个因素：1、数据量少 2、模型复杂度过高
因为维度不断增加就会增加整个数据空间的稀疏性，这样就更容易找到分类的超平面，所以降低维度可以帮助降低过拟合

5、以下可以有效解决过拟合的方法是：（ AD ）

A、增加样本数量

B、增加特征数量

C、训练更多的迭代次数

D、采用正则化方法

增加特征会让你的模型更加复杂，其实就是更加过拟合。
训练更多的迭代次数也是，会让你的模型，更加偏向于训练集训练出来的结果，而不是测试集的。
过拟合：获取更多训练实例；减少特征数量；增加正则化成度（λ）。
欠拟合：获得更多特征；增加多项式特征；减少正则化（λ）。

6、机器学习中，如果一味的去提高训练数据的预测能力，所选模型的复杂度往往会很高，这种现象称为过拟合。所表现的就是模型训练时候的误差很小，但在测试的时候误差很大，对于产生这种现象以下说法正确的是：（ AC ）

A、样本数量太少

B、样本数量过多

C、模型太复杂

D、模型太简单

样本数量太少，或者模型过分复杂，都会使得训练出来的模型“完全记住”给出的训练样本之间的关系（相当于只是背下来了试卷，但是等到高考的时候遇到新的题还是不会做）而缺乏泛化能力使得模型过拟合

7、以下可以有效解决过拟合的方法是：（ ABD ）

A、增加样本数量

B、通过特征选择减少特征数量

C、训练更多的迭代次数

D、采用正则化方法

8、在一个神经网络中，下面哪种方法可以用来处理过拟合？（ D ）

A、Dropout

B、分批归一化(Batch Normalization)

C、正则化(regularization)

D、都可以

9、深度学习中，以下哪些方法可以降低模型过拟合？（ A B D ）

A、增加更多的样本

B、Dropout

C、增大模型复杂度，提高在训练集上的效果

D、增加参数惩罚

放置模型过拟合：
1.引入正则化（参数范数惩罚）
2.Dropout
3.提前终止训练
4.增加样本量
5.参数绑定与参数共享
6.辅助分类节点(auxiliary classifiers)
7.Batch Normalization

10、下列的哪种方法可以用来降低深度学习模型的过拟合问题？（ D ）

①增加更多的数据

②使用数据扩增技术(data augmentation)

③使用归纳性更好的架构

④ 正规化数据

⑤ 降低架构的复杂度

A、1 4 5

B、1 2 3

C、1 3 4 5

D、所有项目都有用

防止过拟合的几种方法：
引入正则化
Dropout
提前终止训练
增加样本量

三、正则化

1、以下关于正则化的描述正确的是（ABCD ）

A、正则化可以防止过拟合

B、L1正则化能得到稀疏解

C、L2正则化约束了解空间

D、Dropout也是一种正则化方法

L2本质是参数解的2阶范数，以二维为例，L2的最优解就是一个圆；如果你还记得话，loss func的组成是两部分一部分是预测值和真实值之间的error，一部分是正则项，前一部分的解空间可以看作是一个梯度下降的等高线，这样一来，loss func的所有局部解就是每层等高线和这个圆之间的切点，所以说约束了解空间。这也是为啥L2会让解平滑，L1会让解稀疏（因为L1的解是一个四个顶点在坐标轴上的正方形，等高线与它的交点多半落在坐标轴上，意味着某一维会变成零）

2、机器学习中L1正则化和L2正则化的区别是（ AD ）

A、使用L1可以得到稀疏的权值

B、使用L1可以得到平滑的权值

C、使用L2可以得到稀疏的权值

D、使用L2可以得到平滑的权值

L1会趋向于产生少量的特征，而其他的特征都是0
L2会选择更多的特征，这些特征都会接近于0

3、假如使用一个较复杂的脊回归模型 (Ridge Regression)，来拟合样本数据时，通过调整正则化参数λ，来调整模型复杂度。当λ较大时，关于偏差（bias）和方差（variance），下列说法正确的是（ C ）

A、当λ增大时，偏差减小，方差减小

B、当λ增大时，偏差减小，方差增大

C、当λ增大时，偏差增大，方差减小

D、当λ增大时，偏差增大，方差增大

λ越大，对模型中参数的惩罚力度越大，因此会有更多的参数被训练为0，模型也就变得更加简单了。
模型复杂度越低，方差小，但偏差大。

四、总结

1、人工智能概念补充

1、在深度学习中，我们通常选择对于模型参数可微的损失函数。简而言之，这意味着，对于每个参数，如果我们把这个参数增加或减少一个无穷小的量，我们可以知道损失会以多快的速度增加或减少。

2、梯度：指向值变化最大的方向。（和等高线正交）

3、如果当数据量不是很大的时候（万级别以下）的时候将训练集、验证集以及测试集划分为6：2：2；若是数据很大，可以将训练集、验证集、测试集比例调整为98：1：1；但是当可用的数据很少的情况下也可以使用一些高级的方法，比如留出方，K折交叉验证

4、bias和variance的区别和作用

bias 偏差：模型的期望（或平均）预测和正确值之间的差别；

variance 方差：模型之间的多个拟合预测之间的偏离程度。

2 、正则化补充

2.1 正则化的概念

正则化-Regularization（也称为惩罚项或范数）就是通过对模型的参数在“数量”和“大小”方面做相应的调整，从而降低模型的复杂度，以达到避免过拟合的效果。

如果我们的目标仅仅是最小化损失函数（即经验风险最小化），那么模型的复杂度势必会影响到模型的整体性能；引入正则化（即结构风险最小化）可以理解为衡量模型的复杂度，同时结合经验风险最小化，进一步训练优化算法。

2.2 正则化的作用

正则化可以限制模型的复杂度，从而尽量避免过拟合的发生；模型之所以出现过拟合的主要原因是学习到了过多噪声，即模型过于复杂（也可以通过简化模型或增加数据集等方法尽量避免过拟合的发生）。

2.3 正则化的常见类型

（1）L1正则化

可以通过稀疏化（减少参数“数量”）来降低模型复杂度的，即可以将参数值减小到0。

（2）L2正则化

可以通过减少参数值“大小”来降低模型的复杂度，即只能将参数值不断减小，但永远不会减小为0，只能尽量接近于0。

2.4 关联概念

过拟合、正则化、经验风险最小化、结构风险最小化、损失函数、模型复杂度、范数

from：https://zhuanlan.zhihu.com/p/463716031

posted @ 2022-07-04 23:18 海_纳百川阅读(487) 评论(0) 编辑收藏举报

刷新页面返回顶部

不积跬步无以至千里

研究领域：深度学习，图像处理
联系方式：vladimirputin@foxmail.com
不必高看自己，也不必贬低自己

大厂面试题目之正则化

一、欠拟合

二、过拟合

三、正则化

四、总结

1、人工智能概念补充

2 、正则化补充

2.1 正则化的概念

2.2 正则化的作用

2.3 正则化的常见类型

2.4 关联概念

公告

不积跬步无以至千里

研究领域：深度学习，图像处理 联系方式：vladimirputin@foxmail.com 不必高看自己，也不必贬低自己

大厂面试题目之正则化

一、欠拟合

二、过拟合

三、正则化

四、总结

1、人工智能概念补充

2 、正则化补充

2.1 正则化的概念

2.2 正则化的作用

2.3 正则化的常见类型

2.4 关联概念

公告

研究领域：深度学习，图像处理
联系方式：vladimirputin@foxmail.com
不必高看自己，也不必贬低自己