机器学习水平自测(一)
原文:Solutions for Skilltest Machine Learning : Revealed
个人翻译,如有不当的地方请指出=。=
自动化和智能一直是技术进步的推动力量,机器学习推动每一个领域的技术发展 。随着时间的发展,我们发现机器学习出现在各行各业-从手机上的语音助手到商业网站的推荐系统等,机器学习对我们生活的影响不能忽略。
这个测试为懂得基本机器学习概念,或者想通过测试对机器学习有浅显了解的人设计。
-
在n(n>1)维度的空间中,下面哪个方法最适合用作异常点检测:
A 正态概率图
B 盒图
C 马氏距离
D 散点图
答案:C
马氏距离是多元统计方法,表示数据的协方差距离。它是一种有效的计算两个未知样本集相似度的方法,与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是关联的)。因此马氏距离常用于多元异常值检测。 -
逻辑回归与多元回归分析方法有哪些不同:
A. LR用来预测事件发生的概率
B. 较高的拟合指数
C. 对回归系数的评估
D. 以上全是
答案:D
A:LR 是用作分类问题,我们能计算出一个事件/样本的概率
B:一般来说,LR对测试数据有着较好的拟合效果
C:使用LR拟合之后,我们可以观察回归系数类标签(正类和负类)与独立变量的的关系 -
bootstrap 数据的含义是:
A. 有放回的从整体M中抽样m个特征
B. 无放回的从整体M中抽样m个特征
C. 有放回的从整体N中抽样n个样本
D. 无放回的从整体N中抽样n个样本
答案:C
如果我们没有足够的数据来训练我们的算法,我们应该通过随机重采样增加训练集合的大小 -
"过拟合是有监督学习的挑战,而不是无监督学习"以上说法是否 正确:
A. True
B. False
答案:B
我们可以评估无监督学习方法通过无监督学习的指标,如:我们可以评估聚类模型通过调整兰德系数(adjusted rand score) -
下列表述中,在k-fold交叉验证中关于选择
K
说法正确的是:
A. 较大的K
并不总是好的,选择较大的K可能需要较长的事件来评估你的结果
B. 相对于期望误差来说,选择较大的K
会导致低偏差(因为训练folds会变得与整个集合相似)
C. 在交叉验证中通过最小化方差来选择K值
D. 以上都是
答案:D
相对于过高的估计真实期望误差,较大的K意味着更小的偏差(因为训练folds的大小接近整个dataset)和更多的运行时间(极限情况是:留一交叉验证)。当选取K值的时候,我们需要考虑到k-folds 准确度的方差。 -
一个回归模型存在多重共线问题。在不损失过多信息的情况下,你该怎么做:
A. 移除两个共线的变量
B. 移除两个共线变量中的其中一个
C. 我们可以计算VIF(方差膨胀因子,variance inflation factor)来检查存在的多重共线性并采取相应的措施
D. 移除相关变量可能会导致信息的丢失,为了保留这些变量,我们可以使用岭回归(ridge)或lasso等回归方法对模型进行惩罚
答案:B C D
为了检查多重共线性,我们可以创建相关系数矩阵来辨别和移除相关系数大于75%的变量(阈值根据情况设定),除此之外,我们可以使用VIF方法来检查当前存在的共线变量。VIF<=4表明没有多种共线,VIF>=10表明有着严重的多重共线性。当然,我们也可以使用公差(tolerance)作为评估指标。
但是,移除相关变量可能导致信息的丢失,为了保留这些变量,我们可以使用带惩罚的回归方法。我们也可以在相关变量之间随机加入噪音,使得变量之间存在差异。但增加噪音可能影响准确度,因此这种方法应该小心使用。 -
评估模型之后,得出模型存在偏差,下列哪种方法可能解决这一问题:
A. 减少模型中特征的数量
B. 向模型中增加更多的特征
C. 增加更多的数据
D. B 和 C
E. 以上全是
答案 :B
高偏差意味这模型不够复杂(欠拟合),为了模型更加的强大,我们需要向特征空间中增加特征。增加样本能够降低方差
-
在构建一个基于决策树模型时,使用信息增益
information gain
作为决策树节点属性选择的标准,以下图片中哪一个属性具信息增益最大:
A. Outlook
B. Humidity
C. Windy
D. Temperature
答案 :A
信息增益是划分前样本数据集的不纯程度(熵)和划分后数据集的不纯程度(熵)的差值
,假设划分前样本数据集为S
,使用属性A
来划分数据集;下面计算属性outlook
的信息增益
-
在决策树中,用作分裂节点的
information gain
说法正确的是
A. 较小不纯度的节点需要更多的信息来区分总体
B. 信息增益可以使用熵得到
C. 信息增益更加倾向于选择有较多取值的属性
答案 B C
使用信息增益作为决策树节点属性选择的标准,由于信息增益在类别值多的属性上计算结果大于类别值少的属性上计算结果,这将导致决策树算法偏向选择具有较多分枝的属性。 -
一个SVM存在欠拟合问题,下面怎么做能够提高其性能:
A. 增大惩罚参数C
B. 减小惩罚参数C
C. 减小核函数系数(gamma值)
答案: A
SVM使用hinge损失函数表示对样本的分类偏差,
,引入松弛变量可以写为
这里的是对于第i个样本的分类损失,如果分类正确则是0,如果分类存在偏差则对应一个线性的值,
是总误差,我们的优化目标是让这个值越小越好,越小代表对训练集的分类越精准。目标函数中的另一项(常数1/2是为了方便求导加上去的)最小化的目标是使得分类间隔2/||W||最大,C >0称为惩罚参数
,是调和二者的系数(trade-off),C值大时对误差分类的惩罚增大,C值小时对误差分类的惩罚减小。- 当C越大,趋近无穷的时候,表示不允许分类误差的存在,margin越小,容易过拟合
- 当C趋于0时,表示我们不再关注分类是否正确,只要求margin越大,容易欠拟合