七月在线机器学习笔试练习整理

1.以下哪种方法属于判别式模型(discriminative model)（）

A 隐马模型(HMM)
B 朴素贝叶斯
C LDA
D 支持向量机

解析：

已知输入变量x，判别模型(discriminative model)通过求解条件概率分布P(y|x)或者直接计算y的值来预测y。
生成模型（generative model）通过对观测值和标注数据计算联合概率分布P(x,y)来达到判定估算y的目的。
常见的判别模型有线性回归（Linear Regression）,逻辑回归（Logistic Regression）,支持向量机（SVM）, 传统神经网络（Traditional Neural Networks）,线性判别分析（Linear Discriminative Analysis），条件随机场（Conditional Random Field）；
常见的生成模型有朴素贝叶斯（Naive Bayes）, 隐马尔科夫模型（HMM）,贝叶斯网络（Bayesian Networks）和隐含狄利克雷分布（Latent Dirichlet Allocation）。

A选项的隐马尔科夫模型和 B选项的朴素贝叶斯属于生成模型。C选项的LDA，如果是指Linear Discriminative Analysis，那么属于判别模型，如果是指 Latent Dirichlet Allocation，那么属于生成模型。D选项的支持向量机属于判别模型。

2.以P(w)表示词条w的概率，假设已知P（南京）=0.8，P（市长）=0.6，P（江大桥）=0.4：P（南京市）=0.3，P（长江大桥）=0.5：如果假设前后两个词的出现是独立的，那么分词结果就是（）

A 南京市*长江 *大桥
B 南京 * 市长*江大桥
C 南京市长*江大桥
D 南京市*长江大桥

解析：

该题考察的是最大概率分词，其基本思想是：一个待切分的汉字串可能包含多种分词结果，将其中概率最大的作为该字串的分词结果。若某候选词在训练语料中未出现，其概率为0。
A分词结果的概率为P(A)=P(南京市)P(长江)P(大桥)，由于“长江”未在语料中出现，所以P(长江)=0，从而P(A)=0; 同理可以算出B, C, D分词结果的概率分别是： P(B)=P(南京)P(市长)P(江大桥)=0.8×0.6×0.4=0.192； P(C)=P(南京市长)P(江大桥)=0×0.4=0； P(D)=P(南京市)P(长江大桥)=0.3×0.5=0.15。因为P(B)最大，所以为正确的分词结果。

3.基于统计的分词方法为（）

A 正向量最大匹配法
B 逆向量最大匹配法
C 最少切分
D 条件随机场

解析：

中文分词的基本方法可以分为基于语法规则的方法、基于词典的方法和基于统计的方法。
基于语法规则的分词法基本思想是在分词的同时进行句法、语义分析, 利用句法信息和语义信息来进行词性标注, 以解决分词歧义现象。因为现有的语法知识、句法规则十分笼统、复杂, 基于语法和规则的分词法所能达到的精确度远远还不能令人满意, 目前这种分词系统应用较少。
在基于词典的方法中，可以进一步分为最大匹配法，最大概率法，最短路径法等。
最大匹配法指的是按照一定顺序选取字符串中的若干个字当做一个词，去词典中查找。
根据扫描方式可细分为：正向最大匹配，反向最大匹配，双向最大匹配，最小切分。最大概率法指的是一个待切分的汉字串可能包含多种分词结果，将其中概率最大的那个作为该字串的分词结果。最短路径法指的是在词图上选择一条词数最少的路径。基于统计的分词法的基本原理是根据字符串在语料库中出现的统计频率来决定其是否构成词。词是字的组合，相邻的字同时出现的次数越多, 就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映它们成为词的可信度。
常用的方法有HMM（隐马尔科夫模型），MAXENT（最大熵模型），MEMM（最大熵隐马尔科夫模型），CRF（条件随机场）。
本题中，基于统计的方法为条件随机场。ABC三个选项为基于词典的方法。

4.下列哪个不属于CRF模型对于HMM和MEMM模型的优势（）

A 特征灵活
B 速度快
C 可容纳较多上下文信息
D 全局最优

解析：

HMM:隐马尔可夫模型

MEMM: 最大熵隐马尔可夫模型

CRF：条件随机场

这三个模型都可以用来做序列标注模型。但是其各自有自身的特点，HMM模型是对转移概率和表现概率直接建模，统计共现概率。而MEMM模型是对转移概率和表现概率建立联合概率，统计时统计的是条件概率。MEMM容易陷入局部最优，是因为MEMM只在局部做归一化，而CRF模型中，统计了全局概率，在做归一化时，考虑了数据在全局的分布，而不是仅仅在局部归一化，这样就解决了MEMM中的标记偏置的问题。

举个例子，对于一个标注任务，“我爱北京天安门“，

                              标注为" s s  b  e b c e"

对于HMM的话，其判断这个标注成立的概率为 P= P(s转移到s)P('我'表现为s) P(s转移到b)P('爱'表现为s) ...*P().训练时，要统计状态转移概率矩阵和表现矩阵。

对于MEMM的话，其判断这个标注成立的概率为 P= P(s转移到s|'我'表现为s)P('我'表现为s) P(s转移到b|'爱'表现为s)P('爱'表现为s)..训练时，要统计条件状态转移概率矩阵和表现矩阵。

对于CRF的话，其判断这个标注成立的概率为 P= F(s转移到s,'我'表现为s)....F为一个函数，是在全局范围统计归一化的概率而不是像MEMM在局部统计归一化的概率。
优点：

（1）CRF没有HMM那样严格的独立性假设条件，因而可以容纳任意的上下文信息。和HMM相比，特征设计灵活（与ME一样）

（2）同时，和MEMM相比，由于CRF计算全局最优输出节点的条件概率，它还克服了最大熵马尔可夫模型标记偏置（Label-bias）的缺点。

（3）和MEMM相比，CRF是在给定需要标记的观察序列的条件下，计算整个标记序列的联合概率分布，而不是在给定当前状态条件下，定义下一个状态的状态分布。

缺点：训练代价大、复杂度高

介绍到这里，就可以得出结论了，如果想了解深入的话，请往下继续看：

HMM模型中存在两个假设：一是输出观察值之间严格独立，二是状态的转移过程中当前状态只与前一状态有关(一阶马尔可夫模型)。

MEMM模型克服了观察值之间严格独立产生的问题，但是由于状态之间的假设理论，使得该模型存在标注偏置问题。

CRF模型解决了标注偏置问题，去除了HMM中两个不合理的假设。当然，模型相应得也变复杂了。

HMM
HMM模型将标注看作马尔可夫链，一阶马尔可夫链式针对相邻标注的关系进行建模，其中每个标记对应一个概率函数。HMM是一种产生式模型（generative model），定义了联合概率分布，

　　其中x和y分别表示观察序列和相对应的标注序列的随机变量。为了能够定义这种联合概率分布，产生式模型需要枚举出所有可能的观察序列，这在实际运算过程中很困难，因为我们需要将观察序列的元素看做是彼此孤立的个体即假设每个元素彼此独立，任何时刻的观察结果只依赖于该时刻的状态。
HMM模型的这个假设前提在比较小的数据集上是合适的，但实际上在大量真实语料中观察序列更多的是以一种多重的交互特征形式表现，观察元素之间广泛存在长程相关性。

　　在命名实体识别的任务中，由于实体本身结构所具有的复杂性，利用简单的特征函数往往无法涵盖所有的特性，这时HMM的假设前提使得它无法使用复杂特征(它无法使用多于一个标记的特征。)
MEMM
　　最大熵模型可以使用任意的复杂相关特征，在性能上最大熵分类器超过了Byaes分类器。但是，作为一种分类器模型，这两种方法有一个共同的缺点：
　　每个词都是单独进行分类的，标记之间的关系无法得到充分利用，具有马尔可夫链的HMM模型可以建立标记之间的马尔可夫关联性，这是最大熵模型所没有的。
　　最大熵模型的优点：

   首先，最大熵统计模型获得的是所有满足约束条件的模型中信息熵极大的模型;

　　其次，最大熵统计模型可以灵活地设置约束条件，通过约束条件的多少可以调节模型对未知数据的适应度和对已知数据的拟合程度;
　　再次，它还能自然地解决了统计模型中参数平滑的问题。

　　最大熵模型的不足：

	首先，最大熵统计模型中二值化特征只是记录特征的出现是否，而文本分类需要知道特征的强度，因此，它在分类方法中不是最优的;

　　其次，由于算法收敛的速度较慢，所以导致最大熵统计模型它的计算代价较大，时空开销大;再次，数据稀疏问题比较严重。
　　最大熵马尔科夫模型把HMM模型和maximum-entropy模型的优点集合成一个产生式模型，这个模型允许状态转移概率依赖于序列中彼此之间非独立的特征上，
　　从而将上下文信息引入到模型的学习和识别过程中，提高了识别的精确度，召回率也大大的提高，有实验证明，这个新的模型在序列标注任务上表现的比HMM和无状态的最大熵模型要好得多。
CRF
　　CRF模型的特点：

　　首先，CRF在给定了观察序列的情况下，对整个的序列的联合概率有一个统一的指数模型。一个比较吸引人的特性是其损失函数的凸面性。

　　其次，条件随机域模型相比较改进的隐马尔可夫模型可以更好更多的利用待识别文本中所提供的上下文信息以得更好的实验结果。
条件随机域在中文组块识别方面有效，并避免了严格的独立性假设和数据归纳偏置问题。
　　条件随机域(CRF)模型应用到了中文名实体识别中，并且根据中文的特点，定义了多种特征模板。并且有测试结果表明：在采用相同特征集合的条件下，条件随机域模型较其他概率模型有更好的性能表现。
再次，词性标注主要面临兼类词消歧以及未知词标注的难题，传统隐马尔科夫方法不易融合新特征，而最大熵马尔科夫模型存在标注偏置等问题。
　　论文引入条件随机域建立词性标注模型，易于融合新的特征，并能解决标注偏置的问题。
　　CRFs具有很强的推理能力，并且能够使用复杂、有重叠性和非独立的特征进行训练和推理，能够充分地利用上下文信息作为特征，还可以任意地添加其他外部特征，
　　使得模型能够获取的信息非常丰富。同时，CRFs解决了最大熵模型中的“label bias”问题。
　　CRFs与最大熵模型的本质区别是：最大熵模型在每个状态都有一个概率模型，在每个状态转移时都要进行归一化。如果某个状态只有一个后续状态，那么该状态到后续状态的跳转概率即为1。这样，不管输入为任何内容，它都向该后续状态跳转。而CRFs是在所有的状态上建立一个统一的概率模型，这样在进行归一化时，即使某个状态只有一个后续状态，它到该后续状态的跳转概率也不会为1，从而解决了“label bias”问题。因此，从理论上讲，CRFs非常适用于中文的词性标注。
　　CRF模型的优点：

　　首先，CRF模型由于其自身在结合多种特征方面的优势和避免了标记偏置问题。

　　其次，CRF的性能更好，CRF对特征的融合能力比较强，

　　对于实例较小的时间类ME来说，CRF的识别效果明显高于ME的识别结果。

　　CRF模型的不足：
　　首先，通过对基于CRF的结合多种特征的方法识别英语命名实体的分析，发现在使用CRF方法的过程中，特征的选择和优化是影响结果的关键因素，
　　特征选择问题的好与坏，直接决定了系统性能的高低。其次，训练模型的时间比ME更长，且获得的模型很大，在一般的PC机上无法运行。

如果想继续了解更多，请参考列举的参考文献。

参考文献
[1].HMM,MEMM,CRF模型的比较.https://www.cnblogs.com/hellochennan/p/6624509.html
[2].牛客网.https://www.nowcoder.com/test/question/done?tid=13599628&qid=7172#referAnchor

５.隐马尔可夫模型(HMM)，设其观察值空间为$O = \left\{o_1,o_2,...,o_N\right\}$，状态空间为$S=\left\{s_1,s_2,...,s_K \right\}$，如果用维特比算法(Viterbialgorithm)进行解码，时间复杂度为( )

A O(NK)
B O(NK^2)
C O(N^2K)
D 以上都不是

解析：
维特比算法（Viterbi algorithm）是一种动态规划算法。假设给定隐式马尔可夫模型（HMM）观察值空间为$O = \left\{o_1,o_2,...,o_N\right\}$，状态空间为$S=\left\{s_1,s_2,...,s_K \right\}$，观察值序列为$Y = \left\{y_1,y_2,...,y_T \right\}$，初始状态$i$的概率为$\pi_i$，从状态$i$到状态$j$的转移概率为$a_{i,j}$。
令观察到的输出为$y_1, y_2,...,y_T$。产生观察结果的最有可能的状态为$x_1,x_2,...,x_T$。
由递推关系给出

\[\begin{align} & V_{1,k} = P(y_1|k) \cdot \pi_k \\ & V_{t,k} = P(y_t|k) \cdot max_{x \in S}(a_{}) \end{align} \]

此处$V_{t,k}$是前$t$个最终状态为$k$的观测结果最有可能对应的状态序列的概率。通过保存向后指针记住在第二个等式中用到的状态$x$可以获得维特比路径。
声明一个函数$Ptr(k,t)$，它返回$x_T = arg \max_{x\in S}(V_T,x)$。
若$t>1$时计算$V_{t,k}$用到的$x$值，或若$t=1$时的$k$。
这样$x_{t-1} = Ptr(x_t,t)$，每个时刻有$K$个隐状态，每个状态需要遍历K个数才能得到，此时时间复杂度为O(K2)，而最终有T个时刻，所以时间复杂度为$O(TK^2)$。
时间复杂度与观察值序列和状态空间有关，与观察值空间无关。

６.在二分类问题中，当测试集的正例和负例数量不均衡时，以下评价方案哪个是相对不合理的（）（假设precision=TP/(TP+FP),recall=TP/(TP+FN)。）

A Accuracy:$\frac{TP+TN}{ALL}$
B F-value: $\frac{2×recall×precision}{(recall + precision)}$
C G-mean: $\sqrt{precision×recall}$.
D AUC:ROC曲线下面积

解析：

对于分类器，主要的评价指标有precision，recall，F-score，以及ROC曲线等。
在二分类问题中，我们主要关注的是测试集的正样本能否正确分类。
当样本不均衡时，比如样本中负样本数量远远多于正样本，此时如果负样本能够全部正确分类，而正样本只能部分正确分类，那么(TP+TN)可以得到很高的值，也就是Accuracy是个较大的值，但是正样本并没有取得良好的分类效果。因此A选项是不合理的。在样本不均衡时，可以采用BCD选项方法来评价。

7.如果线性回归模型中的随机误差存在异方差性，那么参数的OLS估计量是()

A　无偏的，有效的
B　无偏的，非有效的
C　有偏的，有效的
D　有偏的，非有效的

解析：

	OLS即普通最小二乘法。由高斯—马尔可夫定理，在给定经典线性回归的假定下，最小二乘估计量是具有最小方差的线性无偏估计量。根据证明过程可知，随机误差中存在异方差性不会影响其无偏性，而有效性证明中涉及同方差性，即异方差会影响参数OLS估计量的有效性。

8.如下表是用户是否使用某产品的调查结果（）请计算年龄、地区、学历、收入中对用户是否使用调查产品信息增益最大的属性。

UID	年龄	地区	学历	收入	用户是否使用调查产品
1	低	北方	博士	低	是
2	高	南方	本科	中	否
3	低	北方	本科	高	否
4	高	南方	研究生	中	是

(已知$log_23\approx 1.58$.)

A　年龄
B　地区
C　学历
D　收入

解析：

信息增益最大，也就是分类以后信息最少，熵最小。没有划分时，原始数据熵为$-\frac{1}{2}log\frac{1}{2} - \frac{1}{2}log\frac{1}{2} = log2$，
如果按照年龄进行划分，划分后的熵为$-\frac{1}{2}log(\frac{1}{2}) - \frac{1}{2}log(\frac{1}{2})×2 = 2log2$，分别按照熵的方法计算出划分以后的熵值，可以发现按照学历划分以后，熵为0，其他选项都大于0。
因此，信息增益最大的属性是学历。如果不进行计算，可以由观察得出，按照学历划分以后，所有的用户都能正确分类，此时熵最小，信息增益最大。如果按照其他属性分类，都出现了错分的情况，对应的熵大于0。

9.下面关于ID3算法中说法错误的是（）

A　ID3算法要求特征必须离散化
B　信息增益可以用熵，而不是GINI系数来计算
C　选取信息增益最大的特征，作为树的根节点
D　ID3算法是一个二叉树模型

解析：

ID3算法（IterativeDichotomiser3迭代二叉树3代）是一个由RossQuinlan发明的用于决策树的算法。
可以归纳为以下几点：
使用所有没有使用的属性并计算与之相关的样本熵值选取其中熵值最小的属性生成包含该属性的节点
ID3算法对数据的要求：

1)所有属性必须为离散量；
2)所有的训练例的所有属性必须有一个明确的值；
3)相同的因素必须得到相同的结论且训练例必须唯一。

10.在其它条件不变的前提下，以下哪种做法容易引起机器学习中的过拟合问题（）

A　增加训练集数量
B　减少神经网络隐藏层节点数
C　删除稀疏的特征
D　SVM算法中使用高斯核/RBF核代替

解析：

机器学习中发生过拟合的主要原因有：
（1）使用过于复杂的模型；
（2）数据噪声较大；
（3）训练数据少。

由此对应的降低过拟合的方法有：

（1）简化模型假设，或者使用惩罚项限制模型复杂度；
（2）进行数据清洗，减少噪声；
（3）收集更多训练数据。

本题中，A对应于增加训练数据，B为简化模型假设，C为数据清洗。D选项中，高斯核的使用增加了模型复杂度，容易引起过拟合。选择合适的核函数以及软边缘参数C就是训练SVM的重要因素。一般来讲，核函数越复杂，模型越偏向于过拟合；C越大模型越偏向于过拟合，反之则拟合不足。

11.一个二进制源X发出符号集为{-1,1}，经过离散无记忆信道传输，由于信道中噪音的存在，接收端Y收到符号集为{-1,1,0}。已知P(x=-1)=1/4，P(x=1)=3/4，P(y=-1|x=-1)=4/5，P(y=0|x=-1)=1/5，P(y=1|x=1)=3/4，P(y=0|x=1)=1/4，求条件熵H(Y|X)()

A　0.7889 bit
B　0.3275 bit
C　0.5273 bit
D　0.5372 bit

解析：
随机时间$X$所包含的信息量与其发生的概率有关。发生的概率越小，其信息量就越大；反之，必定发生的事件(如太阳东升西落)，其信息量为0。
信息量公式为：$I(x) = -log p(x)$，其中$I$是Information的缩写。信息量公式的单位：log以2为底，记作lb，
单位比特(bit)，log以e为底，记作ln，单位奈特(nat)，log以10为底，记作lg，单位哈脱莱(hat)。
信息熵：随机变量$X$不确定的度量，是对$X$所有可能值产生的信息量的期望。
信息熵公式：$H(x) = -\sum \limits_{i=1}^n p(x_i)log(x_i)$.
由于公式可知，信息熵只与随机变量$X$的概率分布$p(x)$有关。
条件熵：表示在已知随机变量$X$的条件下随机变量$Y$的不确定性。
条件熵公式：$H(Y|X) = -\sum \limits_{x}p(x)\sum \limits_{y}p(y|x)log p(y|x)$.
由选项单位为bit可知，log函数以2为底，故将$p(x=-1)=\frac{1}{4}$，$p(x=1) = \frac{3}{4}$，$p(y=0|x=-1) = \frac{1}{5}$，$p(y=1|x=1) = \frac{3}{4}$，$p(y=0|x=1) = \frac{1}{4}$代入条件熵公式得：

$H(Y|X) = -[\frac{1}{4}*(\frac{4}{5}log_2\frac{4}{5}+ \frac{1}{5}log_2\frac{1}{5}) + \frac{3}{4}*(\frac{3}{4}log_2\frac{3}{4} + \frac{1}{4}log_2\frac{1}{4})] \approx 0.7889 bit$

12.Fisher线性判别函数的求解过程是将M维特征矢量投影在( )中进行求解。

A　M-1维空间
B　一维空间
C　三维空间
D　二维空间

解析：
线性判别分析（Linear Discriminant Analysis）简称 LDA，在二分类问题上最早由Fisher提出，故又称Fisher判别分析。
在二分类问题上，Fisher判别分析的基本思想是：在训练时，将训练样本投影到某条直线上，这条直线可以使得同类型样本的投影点尽可能接近，而异类型样本的投影点尽可能远离。在预测时，将待预测数据投影到训练时学习到的直线上，根据投影点的位置来判断所属于的类别。如图所示：

综上所述，Fisher判别分析可以将二维特征向量投影到一维空间。推广到多分类任务中，Fisher判别分析可以将 M 维特征向量投影到 M-1 维空间，即：Fisher判别函数的求解过程是将M维特征矢量投影到M-1维空间中进行求解。补充：Fisher判别分析（即LDA）经常被视为一种经典的监督降维技术。

13.类域界面方程法中，不能求线性不可分情况下分类问题近似或精确解的方法是（）

A　势函数法
B　基于二次准则的H-K算法
C　伪逆法
D　感知器算法

解析：

对于A，势函数法：势函数非线性。
对于B，基于二次准则的H-K算法：在最小均方误差准则下求得权矢量，可以解决非线性问题。
对于C，伪逆法：径向基（RBF）神经网络的训练算法，解决线性不可分的情况。
对于D，“不能求解线性不可分情况下的分类问题” 即：“不能求解非线性分类问题”，感知器算法属于线性分类模型，故不能求解非线性分类问题。补充：二次准则可以理解为在最小均方误差的准则下求得权矢量（二次是说均方误差是一个二次函数）

14.Nave Bayes是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是（）

A　各类别的先验概率P(C)是相等的
B　以0为均值，sqr(2)/2为标准差的正态分布
C　特征变量X的各个维度是类别条件独立随机变量
D　P(X|C)是高斯分布

解析：

朴素贝叶斯的基本假设就是每个变量相互独立。

15.在HMM中,如果已知观察序列和产生观察序列的状态序列,那么可用以下哪种方法直接进行参数估计（）

A　EM算法
B　维特比算法
C　前向后向算法
D　极大似然估计

解析：

EM算法：只有观测序列，无状态序列时来学习模型参数，即Baum-Welch算法
维特比算法：用动态规划解决HMM的预测问题，不是参数估计
前向后向算法：用来算概率
极大似然估计：即观测序列和相应的状态序列都存在时的监督学习算法，用来估计参数注意的是在给定观测序列和对应的状态序列估计模型参数，可以利用极大似然发估计。如果给定观测序列，没有对应的状态序列，才用EM，将状态序列看不不可测的隐数据。

16.假定某同学使用Naive Bayesian（NB）分类模型时，不小心将训练数据的两个维度搞重复了，那么关于NB的说法中不正确的是？

A　模型效果相比无重复特征的情况下精确度会降低
B　如果所有特征都被重复一遍，得到的模型预测结果相对于不重复的情况下的模型预测结果一样
C　无法用两列特征相同时所得到的结论来分析问题

解析：

朴素贝叶斯的条件就是每个变量相互独立。在贝叶斯理论系统中，都有一个重要的条件独立性假设：假设所有特征之间相互独立，这样才能将联合概率拆分。此外，若高度相关的特征在模型中引入两次, 这样增加了这一特征的重要性, 则它的性能因数据包含高度相关的特征而下降。正确做法是评估特征的相关矩阵，并移除那些高度相关的特征。补充说明 C选项已删除前半句话“当两列特征高度相关时，”而高度相关和相同类似，它们都会导致朴素贝叶斯公式对模型的估计不准确，所以C选项描述正确，题目问的是不正确的，故不可以选C。

17.以下哪些方法不可以直接来对文本分类？

A　Kmeans
B　决策树
C　支持向量机
D　KNN

解析：

Kmeans是聚类方法，典型的无监督学习方法。分类是监督学习方法，BCD都是常见的分类方法。

18.已知一组数据的协方差矩阵P，下面关于主分量说法错误的是( )

A　主分量分析的最佳准则是对一组数据进行按一组正交基分解, 在只取相同数量分量的条件下,以均方误差计算截尾误差最小
B　在经主分量分解后,协方差矩阵成为对角矩阵
C　主分量分析就是K-L变换
D　分量是通过求协方差矩阵的特征值得到

解析：

K-L变换与PCA变换是不同的概念，PCA的变换矩阵是协方差矩阵，K-L变换的变换矩阵可以有很多种（二阶矩阵、协方差矩阵、总类内离散度矩阵等等）。当K-L变换矩阵为协方差矩阵时，等同于PCA。

19.以下不属于影响聚类算法结果的主要因素有（）

A　已知类别的样本质量
B　分类准则
C　特征选取
D　模式相似性测度

解析：

对于A选项，类别已知暂且不说，样本质量是不会影响聚类结果的。因为聚类的任务只是把数据按照相似性原则进行划分，不存在分类问题中由于训练集样本存在噪声数据，从而影响分类结果的情况。在类别已知的情况下，直接按照样本的类别标签进行聚类就可以了，用不到复杂的聚类算法，所以也就不存在影响聚类算法结果这么一说了。选项的分类准则是指选取什么特征将该特征相似的数据聚为一类，这个会直接影响到样本聚类的结果；特征选取、相似性测度也是影响聚类算法结果的因素。

20.模式识别中，不属于马氏距离较之于欧式距离的优点是( )

A　平移不变性
B　尺度不变性
C　考虑了模式的分布

解析：

欧氏距离是在N维空间中两个点的真实距离；马氏距离表示数据的协方差距离。
而欧式距离的特征是：平移不变性、旋转不变性。
马式距离的特征则是：平移不变性、旋转不变性、尺度不变性、不受量纲影响、考虑了模式分布。
所以马式距离相比欧式距离的优点：尺度不变性、不受量纲影响、考虑了模式分布。
换句话说，不属于马式距离较之于欧式距离的优点是：平移不变性、旋转不变性。

21.不会对K-均值算法产生影响的因素是( )

A　样本输入顺序
B　模式相似性测度
C　聚类准则
D　初始类中心的选取

解析：

对于D选项，传统的Ｋ均值算法随机选取初始聚类中心，往往会造成聚类结果陷入局部最优解，故改进初始类中心的选取方法可以提升Ｋ均值算法的聚类效果。
对于A选项，样本的输入顺序会影响到初始类中心的选取结果。
对于B选项，模式相似性测度是指数据相似性的测量标准，比如通过计算两个数据的欧式距离大小，来判定他们的相似程度，进而确定他们是否属于同类。欧氏距离越小，说明数据越接近，相似性越大。此外，相似性测度还有马氏距离、余弦相似度等，不同的测度会影响到K-均值算法聚类的结果，这和应聘面试是一个道理，不同的用人单位选用不同的标准，同样的你去应聘成功的概率也会不同。
聚类准则：相似的数据被聚为一类。这个准则是不会变的，故不会对Ｋ均值算法产生影响，所以答案选C。

22.在统计模式分类问题中，当先验概率未知时，可以使用以下哪项准则?

A　最小损失准则
B　最小最大损失准则
C　最小误判概率准则

解析：

最小损失准则中需要用到先验概率，不选A；最小最大损失规则主要是解决在使用最小损失规则时先验概率未知或难以计算的问题的，选B；最小误判概率准则就是判断p(w1|x)和p(w2|x)哪个大，x为特征向量，w1和w2为两分类，根据贝叶斯公式，需要用到先验知识，不选C。
补充知识：在贝叶斯决策中，对于先验概率未知时可以使用聂曼-皮尔逊决策(N-P决策)来计算决策面。

23.如果以特征向量的相关系数作为模式相似性测度，则影响聚类算法结果的主要因素有（）

A　已知类别样本质量
B　分类准则
C　量纲

解析：

A选项，样本质量是不会影响聚类结果的。因为聚类的任务只是把数据按照相似性原则进行划分，不存在分类问题中由于训练集样本存在噪声数据，从而影响分类结果的情况。此外，在类别已知的情况下，直接按照样本的类别标签进行聚类就可以了，用不到复杂的聚类算法，所以自然也就不存在影响聚类算法结果；
B选项，分类准则是指选取什么特征将该特征相似的数据聚为一类，这个会直接影响到样本聚类的结果；
C选项，两个特征向量的相关系数与其量纲无关，故不选。

24.以下属于欧式距离特性的有（）

A　旋转不变性
B　尺度缩放不变性
C　不受量纲影响的特性

解析：
欧氏距离是在N维空间中两个点的真实距离；马氏距离表示数据的协方差距离。
欧式距离的特性有：平移不变性、旋转不变性；
马式距离的特性有：平移不变性、旋转不变性、尺度不变性、不受量纲影响、考虑了模式分布。
A正确，BC属于马氏距离的特性，不选。

25.以下( )不属于线性分类器最佳准则？

A　感知准则函数
B　贝叶斯分类
C　支持向量机
D　Fisher准则

解析：

线性分类器有三大类：感知器准则函数、SVM、Fisher准则，而贝叶斯分类器不是线性分类器。
感知准则函数 ：准则函数以使错分类样本到分界面距离之和最小为原则。其优点是通过错分类样本提供的信息对分类器函数进行修正，这种准则是人工神经元网络多层感知器的基础。
支持向量机 ：基本思想是在两类线性可分条件下，所设计的分类器界面使两类之间的间隔为最大，它的基本出发点是使期望泛化风险尽可能小。（使用核函数可解决非线性问题）
Fisher 准则 ：更广泛的称呼是线性判别分析（LDA），将所有样本投影到一条远点出发的直线，使得同类样本距离尽可能小，不同类样本距离尽可能大，具体为最大化“广义瑞利商”。根据两类样本一般类内密集，类间分离的特点，寻找线性分类器最佳的法线向量方向，使两类样本在该方向上的投影满足类内尽可能密集，类间尽可能分开。这种度量通过类内离散矩阵 Sw 和类间离散矩阵 Sb 实现。

26.一监狱人脸识别准入系统用来识别待进入人员的身份，此系统一共包括识别4种不同的人员：狱警，小偷，送餐员，其他。下面哪种学习方法最适合此种应用需求：

解析：

二分类：每个分类器只能把样本分为两类。监狱里的样本分别为狱警、小偷、送餐员、其他。二分类肯定行不通。瓦普尼克95年提出来基础的支持向量机就是个二分类的分类器，这个分类器学习过程就是解一个基于正负二分类推导而来的一个最优规划问题（对偶问题），要解决多分类问题就要用决策树把二分类的分类器级联，VC维的概念就是说的这事的复杂度。
层次聚类：创建一个层次等级以分解给定的数据集。监狱里的对象分别是狱警、小偷、送餐员、或者其他，他们等级应该是平等的，所以不行。此方法分为自上而下（分解）和自下而上（合并）两种操作方式。
K-中心点聚类：挑选实际对象来代表簇，每个簇使用一个代表对象。它是围绕中心点划分的一种规则，所以这里并不合适。
回归分析：处理变量之间具有相关性的一种统计方法，这里的狱警、小偷、送餐员、其他之间并没有什么直接关系。
结构分析：结构分析法是在统计分组的基础上，计算各组成部分所占比重，进而分析某一总体现象的内部结构特征、总体的性质、总体内部结构依时间推移而表现出的变化规律性的统计方法。结构分析法的基本表现形式，就是计算结构指标。这里也行不通。
多分类问题：针对不同的属性训练几个不同的弱分类器，然后将它们集成为一个强分类器。这里狱警、小偷、送餐员以及他某某，分别根据他们的特点设定依据，然后进行区分识别。

27.关于 logit 回归和 SVM 不正确的是（）

A　Logit回归目标函数是最小化后验概率
B　Logit回归可以用于预测事件发生概率的大小
C　SVM可以实现结构风险最小化
D　SVM可以有效避免模型过拟合

解析:
以二项logit回归为例，其模型为

\[P(Y=1|x) = \frac{e^{w\cdot x}}{1 + e^{w \cdot x}}；P(Y=0|x) = \frac{1}{1 + e^{w \cdot x}} \\ w = (w^1,w^2,...,w^n,b)^T；\quad x = (x^1, x^2, ..., x^n, 1)^T \\ \]

logitc回归的目标函数是对数似然函数$L(w)$

\[L(w) = ln\left\{\prod \limits_{i=1}^N [\pi(x_i)]^{y_i}[1 - \pi(x_i)]^{1-y_i} \right\} \\ \pi(x) = P(Y=1|x)；\quad x_i \in R^n， \quad y_i \in \left\{0,1 \right\} \]

通过梯度下降法或拟牛顿法最大化目标函数$L(w)$，从而估计模型参数$w$的值。
朴素贝叶斯算法是最大化后验概率，贝叶斯公式即后验概率公式:$P(\theta|x) = \frac{P(x|\theta)P(\theta)}{P(x)}$。
$P(\theta)$是没有数据支持下，$\theta$发生的概率:先验概率$P(\theta|x)$是在数据$X$的支持下，$\theta$发生的概率；
后验概率$p(x|\theta)$是给定$\theta$的概率分布；
似然函数logit回归输出的是$Y$属于某一类的概率，也可以表示某事件发生的概率，B正确。
SVM通过寻找使得训练数据尽可能分开且分类间隔最大的超平面实现结构风险最小化，C正确。
SVM通过减小惩罚参数C来避免过拟合，因为C越大，分类就越苛刻，越容易过拟合，D正确。

28.有两个样本点，第一个点为正样本,它的特征向量是(0,-1);第二个点为负样本,它的特征向量是(2,3),从这两个样本点组成的训练集构建一个线性SVM分类器的分类面方程是( )

A　2x+y=4
B　x+2y=5
C　x+2y=3
D　2x-y=0

解析：
对于两个点来说，最大间隔就是垂直平分线，因此求出垂直平分线即可。
斜率是两点连线的斜率的负倒数-1/((-1-3)/(0-2)) = -1/2, 可得y=-(1/2)x + c, 过中点((0+2)/2, (-1+3)/2) = (1, 1), 可得c=3/2, 故选C.

29.下面有关分类算法的准确率，召回率，F1 值的描述，错误的是？

A　准确率是检索出相关文档数与检索出的文档总数的比率，衡量的是检索系统的查准率
B　召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率，衡量的是检索系统的查全率
C　正确率、召回率和 F 值取值都在0和1之间，数值越接近0，查准率或查全率就越高
D　为了解决准确率和召回率冲突问题，引入了F1分数

解析：

对于二类分类问题常用的评价指标是精准度（precision）与召回率（recall）。通常以关注的类为正类，其他类为负类，分类器在测试数据集上的预测或正确或不正确，4种情况出现的总数分别记作：
TP——将正类预测为正类数 FN——将正类预测为负类数
FP——将负类预测为正类数 TN——将负类预测为负类数
由此：精准率定义为：P = TP / (TP + FP)
召回率定义为：R = TP / (TP + FN)
F1值定义为： F1 = 2 P R / (P + R)
精准率和召回率和F1取值都在0和1之间，精准率和召回率高，F1值也会高，不存在数值越接近0越高的说法，应该是数值越接近1越高。

30.以下几种模型方法属于判别式模型(Discriminative Model)的有( ) 1)混合高斯模型 2)条件随机场模型 3)区分度训练 4)隐马尔科夫模型

A　2,3
B　3,4
C　1,4
D　1,2

解析：
常见的判别式模型有： Logistic regression（logistical 回归） Linear discriminant analysis（线性判别分析） Supportvector machines（支持向量机） Boosting（集成学习） Conditional random fields（条件随机场） Linear regression（线性回归） Neural networks（神经网络）常见的生成式模型有: Gaussian mixture model and othertypes of mixture model（高斯混合及其他类型混合模型） Hidden Markov model（隐马尔可夫） NaiveBayes（朴素贝叶斯） AODE（平均单依赖估计） Latent Dirichlet allocation（LDA主题模型） Restricted Boltzmann Machine（限制波兹曼机）生成式模型是根据概率乘出结果，而判别式模型是给出输入，计算出结果。

31.Nave Bayes是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是:()

A　各类别的先验概率P(C)是相等的
B　以0为均值，sqr(2)/2为标准差的正态分布
C　特征变量X的各个维度是类别条件独立随机变量
D　P(X|C)是高斯分布

解析：

朴素贝叶斯的条件就是每个变量相互独立。

32.关于支持向量机SVM,下列说法错误的是（）

A　L2正则项，作用是最大化分类间隔，使得分类器拥有更强的泛化能力
B　Hinge 损失函数，作用是最小化经验分类错误
C　分类间隔为1/||w||，||w||代表向量的模
D　当参数C越小时，分类间隔越大，分类错误越多，趋于欠学习

解析：

考虑加入正则化项的原因：想象一个完美的数据集，y>1是正类，y<-1是负类，决策面y=0，加入一个y=-30的正类噪声样本，那么决策面将会变“歪”很多，分类间隔变小，泛化能力减小。加入正则项之后，对噪声样本的容错能力增强，前面提到的例子里面，决策面就会没那么“歪”了，使得分类间隔变大，提高了泛化能力。 B正确。 C错误。间隔应该是2/||w||才对，后半句应该没错，向量的模通常指的就是其二范数。 D正确。考虑软间隔的时候，C对优化问题的影响就在于把a的范围从[0，+inf]限制到了[0,C]。C越小，那么a就会越小，目标函数拉格朗日函数导数为0可以求出w=求和ai∗yi∗xi，a变小使得w变小，因此间隔2/||w||变大

33.在HMM中,如果已知观察序列和产生观察序列的状态序列,那么可用以下哪种方法直接进行参数估计()

A　EM算法
B　维特比算法
C　前向后向算法
D　极大似然估计

解析：

34.在Logistic Regression 中,如果同时加入L1和L2范数,不会产生什么效果()

A　以做特征选择,并在一定程度上防止过拟合
B　能解决维度灾难问题
C　能加快计算速度
D　可以获得更准确的结果

解析：
L1范数是向量中各个元素的绝对值之和，又叫稀疏规则算子。
L1正则化通过向代价函数中添加权重向量的L1范数（即正则化项），使得优化后的模型中无用特征对应的权值变为0，相当于减少了特征维数，实现了特征的自动选择，所以LR中加入L1范数可以进行特征选择、解决维度灾难问题、加快计算速度；
L2范数是向量中各个元素平方和的1/2次方。
L2正则化通过向代价函数中添加权重向量的L2范数，使得优化后的模型中所有的权值w尽可能趋于0但不为0，通过L2范数，可以实现对模型空间的限制，从而在一定程度上避免了过拟合；过拟合的时候，拟合函数需要顾忌每一个点，最终形成的拟合函数波动很大，在某些小区间里，函数值的变化很大，也就是w非常大。所以LR中加入L2范数可以在一定程度上防止过拟合；在LR中同时加入L1和L2范数不会产生结果更准确的效果。

35.机器学习中L1正则化和L2正则化的区别是？

A　使用L1可以得到稀疏的权值
B　使用L1可以得到平滑的权值
C　使用L2可以得到稀疏的权值

解析：

L1正则化偏向于稀疏，它会自动进行特征选择，去掉一些没用的特征，也就是将这些特征对应的权重置为0. L2主要功能是为了防止过拟合，当要求参数越小时，说明模型越简单，而模型越简单则，越趋向于平滑，从而防止过拟合。 L1正则化/Lasso L1正则化将系数w的l1范数作为惩罚项加到损失函数上，由于正则项非零，这就迫使那些弱的特征所对应的系数变成0。因此L1正则化往往会使学到的模型很稀疏（系数w经常为0），这个特性使得L1正则化成为一种很好的特征选择方法。 L2正则化/Ridge regression L2正则化将系数向量的L2范数添加到了损失函数中。由于L2惩罚项中系数是二次方的，这使得L2和L1有着诸多差异，最明显的一点就是，L2正则化会让系数的取值变得平均。对于关联特征，这意味着他们能够获得更相近的对应系数。还是以Y=X1+X2为例，假设X1和X2具有很强的关联，如果用L1正则化，不论学到的模型是Y=X1+X2还是Y=2X1，惩罚都是一样的，都是2alpha。但是对于L2来说，第一个模型的惩罚项是2alpha，但第二个模型的是4*alpha。可以看出，系数之和为常数时，各系数相等时惩罚是最小的，所以才有了L2会让各个系数趋于相同的特点。
可以看出，L2正则化对于特征选择来说一种稳定的模型，不像L1正则化那样，系数会因为细微的数据变化而波动。所以L2正则化和L1正则化提供的价值是不同的，L2正则化对于特征理解来说更加有用：表示能力强的特征对应的系数是非零。因此，一句话总结就是：L1会趋向于产生少量的特征，而其他的特征都是0，而L2会选择更多的特征，这些特征都会接近于0。Lasso在特征选择时候非常有用，而Ridge就只是一种规则化而已。

36.位势函数法的积累势函数K(x)的作用相当于Bayes判决中的()

A　后验概率
B　先验概率
C　类概率密度
D　类概率密度与先验概率的和

解析：
具体的，势函数详解请看——《势函数法》。

37.隐马尔可夫模型三个基本问题以及相应的算法说法错误的是（）

A　评估—前向后向算法
B　解码—维特比算法
C　学习—Baum-Welch算法
D　学习—前向后向算法

解析：
隐马尔科夫模型有三个基本问题：
1 概率计算问题：给定模型和观测序列，计算在模型下观测序列出现的概率。
2 学习问题：已知观测序列，估计模型中的参数，使得在该模型下观测序列概率最大，即用极大似然估计的方法估计参数。
3 预测问题：也称解码问题，已知模型和观测序列，给定观测序列，求最可能的对应的状态序列。
解决隐马尔科夫模型三个基本问题的算法：
概率计算算法：前向算法、后向算法学习算法：Baum-Welch算法
预测算法：近似算法、维特比算法
评估问题就是概率计算问题，相应的算法是前向算法和后向算法，A正确；
解码问题就是预测问题，相应的算法是维特比算法，B正确。
学习问题相应的算法是Baum-Welch算法，C正确；前向算法和后向算法对应评估问题，D错误。

38.在其他条件不变的前提下，以下哪种做法容易引起机器学习中的过拟合问题？

A　增加训练集量
B　减少神经网络隐藏层节点数
C　删除稀疏的特征
D　SVM算法中使用高斯核/RBF核代替线性核

解析：
一般情况下，越复杂的系统，过拟合的可能性就越高，一般模型相对简单的话泛化能力会更好一点。 B.一般认为，增加隐层数可以降低网络误差（也有文献认为不一定能有效降低），提高精度，但也使网络复杂化，从而增加了网络的训练时间和出现“过拟合”的倾向， svm高斯核函数比线性核函数模型更复杂，容易过拟合 D.径向基(RBF)核函数/高斯核函数的说明,这个核函数可以将原始空间映射到无穷维空间。对于参数，如果选的很大，高次特征上的权重实际上衰减得非常快，实际上（数值上近似一下）相当于一个低维的子空间；反过来，如果选得很小，则可以将任意的数据映射为线性可分——当然，这并不一定是好事，因为随之而来的可能是非常严重的过拟合问题。不过，总的来说，通过调整参数，高斯核实际上具有相当高的灵活性，也是使用最广泛的核函数之一。

39.下列时间序列模型中,哪一个模型可以较好地拟合波动性的分析和预测。

A　AR模型
B　MA模型
C　ARMA模型
D　GARCH模型

解析：

AR模型是一种线性预测，即已知N个数据，可由模型推出第N点前面或后面的数据（设推出P点），所以其本质类似于插值。
MA模型(moving average model)滑动平均模型，其中使用趋势移动平均法建立直线趋势的预测模型。
ARMA模型(auto regressive moving average model)自回归滑动平均模型，模型参量法高分辨率谱分析方法之一。这种方法是研究平稳随机过程有理谱的典型方法。它比AR模型法与MA模型法有较精确的谱估计及较优良的谱分辨率性能，但其参数估算比较繁琐。
GARCH模型称为广义ARCH模型，是ARCH模型的拓展，由Bollerslev(1986)发展起来的。它是ARCH模型的推广。GARCH(p,0)模型，相当于ARCH(p)模型。GARCH模型是一个专门针对金融数据所量体订做的回归模型，除去和普通回归模型相同的之处，GARCH对误差的方差进行了进一步的建模。特别适用于波动性的分析和预测，这样的分析对投资者的决策能起到非常重要的指导性作用，其意义很多时候超过了对数值本身的分析和预测。

40.以下说法中错误的是（）

A　SVM对噪声（如来自其他分部的噪声样本）具备鲁棒性
B　在adaboost算法中，所有被分错样本的权重更新比例不相同
C　boosting和bagging都是组合多个分类器投票的方法，二者都是根据单个分类器的正确率确定其权重
D　给定n个数据点，如果其中一半用于训练，一半用户测试，则训练误差和测试误差之间的差别会随着n的增加而减少的

解析：

对于A，软间隔分类器对噪声是有鲁棒性的。对于C，boosting是根据分类器正确率确定权重，bagging不是。对于D，训练集变大会提高模型鲁棒性。

41.你正在使用带有 L1 正则化的 logistic 回归做二分类，其中 C 是正则化参数，w1 和 w2 是 x1 和 x2 的系数。当你把 C 值从 0 增加至非常大的值时，下面哪个选项是正确的？

A　第一个 w2 成了 0，接着 w1 也成了 0
B　第一个 w1 成了 0，接着 w2 也成了 0
C　w1 和 w2 同时成了 0
D　即使在 C 成为大值之后，w1 和 w2 都不能成 0

解析：

L1范数是向量中各个元素的绝对值之和，L1正则化就是向损失函数中添加权重向量的L1范数（即正则化项）。由图像可知，C 值从 0 增加至非常大的值时，w1 和 w2 同时变成 0。

42.在 k-均值算法中，以下哪个选项可用于获得全局最小？

A　尝试为不同的质心（centroid）初始化运行算法
B　调整迭代的次数
C　找到集群的最佳数量
D　以上所有

解析：
传统Ｋ均值算法随机选取初始聚类中心，往往会造成聚类结果陷入局部最优解，改进初始类中心的选取方法可以提升Ｋ均值算法的聚类效果，获得全局最优解。
A选项，尝试为不同的质心初始化实际就是在寻找最佳的初始类中心以便达到全局最优；
B选项，迭代的次数太少无法获得最优解，同样也无法获得全局最优解，所以需要通过调整迭代次数来获得全局最优解；
C选项，集群的最佳数量也就是K值是人为定义的，事先不知道多大的K值能够得到全局最优，所以需要调试K值，以达到全局最优。综上所述，D选项为正确答案。

43.假设你使用 log-loss 函数作为评估标准。下面这些选项，哪些是对作为评估标准的 log-loss 的正确解释。

A　如果一个分类器对不正确的分类很自信，log-loss 会严重的批评它
B　对一个特别的观察而言，分类器为正确的类别分配非常小的概率，然后对 log-loss 的相应分布会非常大
C　找到集群的最佳数量
D　以上都是

解析：

对数损失, 即对数似然损失(Log-likelihood Loss), 也称逻辑斯谛回归损失(Logistic Loss)或交叉熵损失(cross-entropy Loss), 是在概率估计上定义的.它常用于(multi-nominal, 多项)逻辑斯谛回归和神经网络,以及一些期望极大算法的变体. 可用于评估分类器的概率输出。
对数损失通过惩罚错误的分类,实现对分类器的准确度(Accuracy)的量化. 最小化对数损失基本等价于最大化分类器的准确度.为了计算对数损失, 分类器必须提供对输入的所属的每个类别的概率值, 不只是最可能的类别。
对数损失函数的计算公式如下: $L(Y,P(Y|x)) = -log P(Y|X) = -\frac{1}{N}\sum \limits_{i=1}^N \sum \limits_{j=1}^N y_{\overline{ij}}log(p_{\overline{ij}})$，其中，$Y$为输出变量，$X$为输入变量，$L$为损失函数。$N$为输入样本量，$M$为可能的类别数，$y_{ij}$是一个二值指标，表示类别$j$是否是输入实例$x_i$的真实类别。$p_{ij}$为模型或分类器预测输入实例$x_i$属于类别$j$的概率。
如果只有两类$\left\{0,1\right\}$，则对数损失函数的公式简化为：$-\frac{1}{N}\sum \limits_{i=1}^N (y_ilog p_{i} + (1-y_i)log(1-p_i)$).
这时，$y_i$为输入实例$x_i$的真实类别，$p_i$为预测输入实例$x_i$属于类别$1$的概率。对所有样本的对数损失表示对每个样本的对数损失的平均值，对于完美的分类器，对数损失为0。

44.下面哪个选项中哪一项属于确定性算法？

A　PCA
B　K-Means
C　以上都不是

解析：

确定性算法表明在不同运行中，算法输出并不会改变。
如果我们再一次运行算法，PCA 会得出相同的结果，而 k-means 不会。

45.两个变量的 Pearson 相关性系数为零，但这两个变量的值同样可以相关。这句描述是正确还是错误？

A　正确
B　错误

解析：

Pearson相关系数只能衡量线性相关性，但无法衡量非线性关系。如y=x^2，x和y有很强的非线性关系。

46.下列哪个不属于常用的文本分类的特征选择算法？

A　卡方检验值
B　互信息
C　信息增益
D　主成分分析

解析：

常采用特征选择方法。常见的六种特征选择方法：
1）DF(Document Frequency) 文档频率 DF:统计特征词出现的文档数量，用来衡量某个特征词的重要性
2）MI(Mutual Information) 互信息法 互信息法用于衡量特征词与文档类别直接的信息量。如果某个特征词的频率很低，那么互信息得分就会很大，因此互信息法倾向"低频"的特征词。相对的词频很高的词，得分就会变低，如果这词携带了很高的信息量，互信息法就会变得低效。
3）(Information Gain) 信息增益法 通过某个特征词的缺失与存在的两种情况下，语料中前后信息的增加，衡量某个特征词的重要性。
4）CHI(Chi-square) 卡方检验法 利用了统计学中的"假设检验"的基本思想：首先假设特征词与类别直接是不相关的如果利用CHI分布计算出的检验值偏离阈值越大，那么更有信心否定原假设，接受原假设的备则假设：特征词与类别有着很高的关联度。
5）WLLR(Weighted Log Likelihood Ration)加权对数似然
6）WFO（Weighted Frequency and Odds)加权频率和可能性

47.机器学习中做特征选择时，可能用到的方法有？

解析：

卡方检验、信息增益、平均互信息、期望交叉熵均可用于特征选择

48.下列方法中，不可以用于特征降维的方法包括

A　主成分分析PCA
B　线性判别分析LDA
C　深度学习SparseAutoEncoder
D　矩阵奇异值分解SVD
E　最小二乘法LeastSquares

解析：
主成分分析（PCA）通过线性变换将原始数据变换为一组各维度线性无关的表示，可用于提取数据的主要特征分量，常用于高维数据的降维；
线性鉴别法（LDA）通过降维找到一个类内距离最小、类间距离最大的空间实现分类；
稀疏自编码（SparseAutoEncoder）就是用少于输入层神经元数量的隐含层神经元去学习表征输入层的特征，相当于把输入层的特征压缩了，所以是特征降维；
在PCA算法中用到了SVD，类似于PCA降维；
至于最小二乘法是用来回归的，不能用于特征降维，答案选E。

49.下列哪些不适合用来对高维数据进行降维

解析：
LASSO通过参数缩减达到降维的目的；
主成分分析法（PCA）通过线性变换将原始数据变换为一组各维度线性无关的表示，可用于提取数据的主要特征分量，常用于高维数据的降维；
线性鉴别法（LDA）通过降维找到一个类内距离最小、类间距离最大的空间实现分类；
小波分析有一些变换的操作降低其他干扰，可以看做是降维；
拉普拉斯特征映射将处于流形上的数据，在尽量保留原数据间相似度的情况下，映射到低维下表示，实现降维； 聚类分析不能用来对高维数据进行降维。
综上所述，答案选C。

50.下列属于无监督学习的是

A　k-means
B　SVM
C　最大熵
D　CRF

解析：
k-means是聚类，属于无监督学习。SVM、最大熵是分类，属于监督学习。至于CRF是序列化标注，也是有监督学习。

51.以下哪个是常见的时间序列算法模型

A　RSI
B　MACD
C　ARMA
D　KDJ

解析：

自回归滑动平均模型(ARMA) 其建模思想可概括为：逐渐增加模型的阶数，拟合较高阶模型，直到再增加模型的阶数而剩余残差方差不再显著减小为止。其他三项都不是一个层次的。
A.相对强弱指数 (RSI, Relative Strength Index) 是通过比较一段时期内的平均收盘涨数和平均收盘跌数来分析市场买沽盘的意向和实力 , 从而作出未来市场的走势 .
B.移动平均聚散指标 (MACD, Moving Average Convergence Divergence), 是根据均线的构造原理 , 对股票价格的收盘价进行平滑处理 , 求出算术平均值以后再进行计算 , 是一种趋向类指标 .
D.随机指标 (KDJ) 一般是根据统计学的原理 , 通过一个特定的周期 ( 常为 9 日 ,9 周等 ) 内出现过的最高价 , 最低价及最后一个计算周期的收盘价及这三者之间的比例关系 , 来计算最后一个计算周期的未成熟随机值 RSV, 然后根据平滑移动平均线的方法来计算 K 值 , D 值与 J 值 , 并绘成曲线图来研判股票走势 .

52.下列不是SVM核函数的是

A　多项式核函数
B　logistic核函数
C　径向基核函数
D　Sigmoid核函数

解析：
SVM核函数包括线性核函数、多项式核函数、径向基核函数、高斯核函数、幂指数核函数、拉普拉斯核函数、ANOVA核函数、二次有理核函数、多元二次核函数、逆多元二次核函数以及Sigmoid核函数。
核函数的定义并不困难，根据泛函的有关理论，只要一种函数 K ( x i , x j ) 满足Mercer条件，它就对应某一变换空间的内积．对于判断哪些函数是核函数到目前为止也取得了重要的突破，得到Mercer定理和以下常用的核函数类型：

名称	表达式	参数
线性核	$\kappa(x_i, x_j) = x_i^Tx_j$
多项式核	$\kappa(x_i,x_j) = (x_i^Tx_j)^d$	$d \ge 1$为多项式的次数
高斯核	$\kappa(x_i,y_j) = exp(-\frac{
拉普拉斯核	$\kappa(x_i,y_j) = exp(-\frac{
Sigmoid核	$\kappa(x_i,x_j) = tanh(\beta x_i^Tx_j + \theta)$	tanh为双曲正切函数，$\beta>０, \theta< 0$

采用Sigmoid函数作为核函数时，支持向量机实现的就是一种多层感知器神经网络，应用SVM方法，隐含层节点数目(它确定神经网络的结构)、隐含层节点对输入节点的权值都是在设计(训练)的过程中自动确定的。而且支持向量机的理论基础决定了它最终求得的是全局最优值而不是局部最小值，也保证了它对于未知样本的良好泛化能力而不会出现过学习现象。
核函数的选择在选取核函数解决实际问题时，通常采用的方法有：
一是利用专家的先验知识预先选定核函数；
二是采用Cross-Validation方法，即在进行核函数选取时，分别试用不同的核函数，归纳误差最小的核函数就是最好的核函数．如针对傅立叶核、RBF核，结合信号处理问题中的函数回归问题，通过仿真实验，对比分析了在相同数据条件下，采用傅立叶核的SVM要比采用RBF核的SVM误差小很多．
三是采用由Smits等人提出的混合核函数方法，该方法较之前两者是目前选取核函数的主流方法，也是关于如何构造核函数的又一开创性的工作．将不同的核函数结合起来后会有更好的特性，这是混合核函数方法的基本思想．

53.解决隐马模型中预测问题的算法是

A　前向算法
B　后向算法
C　Baum-Welch算法
D　维特比算法

解析：

A、B：前向、后向算法解决的是一个评估问题，即给定一个模型，求某特定观测序列的概率，用于评估该序列最匹配的模型。

C：Baum-Welch算法解决的是一个模型训练问题，即参数估计，是一种无监督的训练方法，主要通过EM迭代实现；

D：维特比算法解决的是给定一个模型和某个特定的输出序列，求最可能产生这个输出的状态序列。如通过海藻变化（输出序列）来观测天气（状态序列），是预测问题，通信中的解码问题。

1.解决预测问题：维特比算法
2.解决概率计算问题：前向后向算法
3.解决参数估计问题：Baum-Welch算法

54.一般，k-NN最近邻方法在（）的情况下效果较好

A　样本较多但典型性不好
B　样本较少但典型性好
C　样本呈团状分布
D　样本呈链状分布

解析：
K近邻算法主要依靠的是周围的点，因此如果样本过多，那肯定是区分不出来的。因此应当选择B
样本呈团状颇有迷惑性，这里应该指的是整个样本都是呈团状分布，这样kNN就发挥不出其求近邻的优势了，整体样本应该具有典型性好，样本较少，比较适宜。

55.在一个n维的空间中，最好的检测outlier(离群点)的方法是（）

A　作正态分布概率图
B　作盒形图
C　马氏距离
D　作散点图

解析:
马氏距离是基于卡方分布的，度量多元outlier离群点的统计方法。
有M个样本向量X1~Xm，协方差矩阵记为S，均值记为向量μ，则其中样本向量X到u的马氏距离表示为：
　　　　　　　　　　　　　$D(x) = \sqrt{(X- \mu)^TS^{-1}(X - \mu)}$

（协方差矩阵中每个元素是各个矢量元素之间的协方差$Cov(X,Y)，Cov(X,Y) = E\left\{[X-E(X)][Y-E(Y)]\right\}$，其中$E$为数学期望)
而其中向量$X_i$与$X_j$之间的马氏距离定义为：
　　　　　　　　　　　　　$D(x_i, x_j) = \sqrt{(X_i - X_j)^TS^{-1}(X-i - X_j)}$

若协方差矩阵是单位矩阵(各个样本向量之间独立同分布)，则公式就成了：

　　　　　　　　　　　　　$D(X_i,X_j) = \sqrt{(X_i - X_j)^T (X_i - X_j)}$

也就是所谓的欧氏距离。
若协方差矩阵是对角矩阵，公式就变成了标准化欧氏距离。
马氏距离的优缺点:与量纲无关，排除变量之间的相关性的干扰。

56.对数几率回归（logistics regression）和一般回归分析有什么区别？

A　对数几率回归是设计用来预测事件可能性的
B　对数几率回归可以用来度量模型拟合程度
C　对数几率回归可以用来估计回归系数
D　以上所有

解析:
LR回归是用来解决分类问题的，可以检验模型对数据的拟合度
模型建立好之后，就可以根据独立的特征，估计相关的回归系数。

57.bootstrap数据是什么意思？（提示：考“bootstrap”和“boosting”区别）

A　有放回地从总共M个特征中抽样m个特征
B　无放回地从总共M个特征中抽样m个特征
C　有放回地从总共N个样本中抽样n个样本
D　无放回地从总共N个样本中抽样n个样本

解析：

boosting的训练集是整个样本集合
bagging的训练集有放回的从N个样本选取n个样本
boostrap其实就是bagging

58.“过拟合”只在监督学习中出现，在非监督学习中，没有“过拟合”，这是（）

A　对的
B　错的

解析：

我们可以使用无监督学习的某些指标或人为地去评估模型性能，以此来判断是否过拟合。如：我们可以评估聚类模型通过调整兰德系数（adjusted rand score）

59.对于k折交叉验证, 以下对k的说法正确的是（）

A　k越大, 不一定越好, 选择大的k会加大评估时间
B　k越大, 不一定越好, 选择大的k会加大评估时间
C　k越大, 不一定越好, 选择大的k会加大评估时间
D　以上所有

解析：
Bias:度量了学习算法的期望输出与真实结果的偏离程度, 刻画了算法的拟合能力
Bias 偏高表示预测函数与真实结果差异很大。
Variance：则代表“同样大小的不同的训练数据集训练出的模型”与“这些模型的期望输出值”之间的差异。
训练集变化导致性能变化， Variance 偏高表示模型很不稳定。
Noise：刻画了当前任务任何算法所能达到的期望泛化误差的下界，刻画了问题本身的难度。
k越大, bias越小, 训练时间越长. 在训练时, 也要考虑数据集间方差差别不大的原则。
比如, 对于二类分类问题, 使用2-折交叉验证, 如果测试集里的数据都是A类的, 而训练集中数据都是B类的, 显然, 测试效果会很差.

60.回归模型中存在多重共线性, 你如何解决这个问题？ 1 去除这两个共线性变量 2 我们可以先去除一个共线性变量 3 计算VIF(方差膨胀因子), 采取相应措施 4 为了避免损失信息, 我们可以使用一些正则化方法, 比如, 岭回归和lasso回归

A　1
B　2
C　2和3
D　2, 3和4

解决多重公线性:
1)用相关矩阵去除相关性过高的变量
2）VIF法, 如果VIF值<=4说明相关性不是很高, VIF值>=10说明相关性较高
3）用岭回归核lasso回归的带有惩罚正则项的方法
4）加上一些随机噪声，使变量不同，但是要小心使用

61.模型的高bias是什么意思, 我们如何降低它？

解析：
bias表示模型预测值的均值与样本实际值的差距，它反映了模型对样本数据的拟合能力。bias越低，说明模型越复杂，参数越多，对样本数据的拟合效果越好，但是容易过拟合；bias越高，说明模型越简单，参数太少，对样本数据的拟合效果不好，这就是欠拟合。
降低bias的方法是增加数据的特征维数，从而实现模型参数的增加，提高模型复杂度，增强模型对样本数据的拟合能力，拟合能力越高bias越低。增加样本数量并没有增加模型训练时的参数，所以不会提高模型复杂度，也就无法降低bias，C错误。在特征空间中增加特征就是增加样本数据的输入特征维数，所以A错误，B正确。

62.训练决策树模型, 属性节点的分裂, 具有最大信息增益的图是下图的哪一个（）

A　Outlook
B　Humidity
C　Windy
D　Temperature

解析：
信息熵公式:$H(Y) = - \sum \limits_{i=1}^n p(y_i)log_2p(y_i)$.
条件熵公式：$H(Y|X) = -\sum \limits_{x} p(x)\sum \limits_{y}p(y|x) log p(y|x)$.
特征X的信息增益公式:$g(Y,X) = H(Y) - H(Y|X)$.
题干样本数据表格化后，如下表所示

ID	X1	X2	X3	X4	Y
	Outlook	Humidity	Windy	Temperature	决策
1	sunny	high	false	hot	yes
2	sunny	high	false	hot	yes
3	overcast	high	false	mild	yes
4	overcast	normal	false	mild	yes
5	overcast	normal	false	mild	yes
6	overcast	normal	false	mild	yes
7	rainy	normal	true	cool	yes
8	rainy	normal	true	cool	yes
9	rainy	normal	true	cool	yes
10	sunny	high	false	hot	no
11	sunny	high	false	hot	no
12	sunny	high	true	mild	no
13	rainy	high	true	mild	no
14	rainy	normal	true	cool	no

原始样本数据信息熵$H(Y) = 0.9403 bit$
$P(Y = yes) = \frac{9}{14}， \quad P(Y=no) = \frac{5}{14}$
$H(Y) = -[\frac{9}{14}log_2\frac{9}{14}+ \frac{5}{14}log_2\frac{5}{14}] \approx 0.9403 bit$
Outlook的信息增益$g(Y,X1) = 0.2468 bit$
$P(X1 = sunny) = \frac{5}{14}，\quad P(Y=yes|X1 = sunny) = \frac{2}{5}，\quad P(Y,X1) = \frac{3}{5}$.
$P(X1 = overcast) = \frac{5}{14}，\quad P(Y = yes|X1 = overcast) = 1,\quad P(Y=no|X1=overcast) = 0$.
$P(X1=rainy) = \frac{5}{14}，\quad P(Y=yes|X1=rainy)=\frac{3}{5},\quad P(Y=no|X1=rainy) = \frac{2}{5}$.
$H(Y|X1)=-[\frac{5}{14}(\frac{2}{5}log_2\frac{2}{5}) + \frac{3}{5}log_2 \frac{3}{5}] + 0 + \frac{5}{14}(\frac{3}{5}log_2\frac{3}{5} + \frac{2}{5}log_2\frac{2}{5}) \approx 0.6935 bit$.
$g(Y,X1) = H(Y)-H(Y|X1) = 0.2468bit$.
$P(X2=high) = \frac{7}{14},\quad P(Y=yes|X2=high) = \frac{3}{7}, \quad P(Y=no|X2=high) = \frac{4}{7}$.
$P(X2=normal) = \frac{7}{14}, \quad P(Y=yes|X2=normal)=\frac{6}{7}, \quad P(Y=no|X2=normal) = \frac{1}{7}$.
$H(Y|X2) = -[\frac{7}{14}(\frac{3}{7}log_2\frac{3}{7} + \frac{4}{7}log_2\frac{4}{7})+\frac{7}{14}(\frac{6}{7}log_2\frac{6}{7} + \frac{1}{7}log_2\frac{1}{7})] \approx 0.7885 bit$.

Humidity的信息增益$g(Y,X2) = H(Y) - H(Y|X2) = 0.1518 bit$
$P(X3=true) = \frac{6}{14},\quad P(Y=yes|X3=true) = \frac{3}{6}, \quad P(Y=no|X3=true) = \frac{3}{6}$.
$P(X3=false) = \frac{8}{14}, \quad P(Y=yes|X3 = false) = \frac{6}{8}, \quad P(Y=no|X3=false) = \frac{2}{8}$.
$H(Y|X3) = -[\frac{6}{14}(\frac{3}{6}log_2\frac{3}{6} + \frac{3}{6}log_2\frac{3}{6}) + \frac{8}{14}(\frac{6}{8}log_2\frac{6}{8} + \frac{2}{8}log_2\frac{2}{8})] \approx 0.8922 bit$.

Temperature的信息增益 $g(Y,X3) = H(Y) - H(Y|X3) = 0.048 bit$.
$P(X4 = hot) = \frac{4}{14}, \quad P(Y=yes|X4=hot) = \frac{2}{4}, \quad P(Y=no|X4=hot) = \frac{2}{4}$.
$P(X4 = mild) = \frac{6}{14}, \quad P(Y=yes|X4=mild) = \frac{4}{6}, \quad P(Y=yes|X4=mild) = \frac{2}{6}$.
$P(X4 = cool) = \frac{4}{14}, \quad P(Y=yes|X4=cool) = \frac{3}{4}, \quad P(Y=no|X4=cool) = \frac{1}{4}$.
$H(Y|X4) = -[\frac{4}{14}(\frac{2}{4}log_2\frac{2}{4} + \frac{2}{4}log_2\frac{2}{4}) + \frac{6}{14}(\frac{4}{6}log_2\frac{4}{6} + \frac{2}{6}log_2\frac{2}{6}) + \frac{4}{14}(\frac{3}{4}log_2\frac{3}{4} + \frac{1}{4}log_2\frac{1}{4})] \approx 0.9111 bit$.
$g(Y|X4) = H(Y) - H(Y|X4) = 0.0292 bit$.

综上所述，信息增益：Outlook > Humidity > Windy > Temperature

63.对于信息增益, 决策树分裂节点, 下面说法正确的是（） 1 纯度高的节点需要更多的信息去区分 2 信息增益可以用”1比特-熵”获得 3 如果选择一个属性具有许多归类值, 那么这个信息增益是有偏差的

A　1
B　2
C　2和3
D　所有以上

解析:
如图，5个样本数据按照节点X1的取值被划分到子节点，子节点的类别纯度为100%，故不需要更多的信息（如特征X2）继续划分，1错误。

解析:
设类别为随机变\量$Y$，特征为$X$，则信息增益=$H(Y)-H(Y|X)$，则$H(Y)$的取值为：$[0,log(n)]$，其中$log$底数为2，$n$为随机变量$Y$的取值个数。当$n=2$且正负样本概率均为0.5时，信息熵$H(Y)=1bit$。所以信息增益可以用“1比特-熵”来获得，这里的熵即为条件熵$H(Y|X)$，“1比特-熵”加引导意思是在特定情况下的信息增益，所以2正确。
以信息增益作为划分训练数据集的特征，存在偏向于选择较多的特征的问题，也就是说选择一个属性具有许多归类值所获得的信息增益比可以对这一问题进行校正。

64.下图是同一个SVM模型, 但是使用了不同的径向基核函数的gamma参数, 依次是g1, g2, g3 , 下面大小比较正确的是

A　g1 > g2 > g3
B　g1 = g2 = g3
C　g1 < g2 < g3
D　g1 >= g2 >= g3E. g1 <= g2 <= g3

解析：
所谓径向基函数(Radial Basis Function简称RBF)，就是某种沿径向对称的标量函数。通常定义为空间中任一点$x$到某一中心点$xc$之间的欧氏距离的单调函数，可记作$k(||x-xc||)$，其作用往往是局部的，即当$x$远离$xc$时函数取值很小。
最常用的径向基函数是高斯核函数，形式为$k(||x-xc||)=\exp{}\left\{-\frac{||x-xc||^2}{2\sigma^2}\right\}$，
其中$xc$为核函数中心，$\sigma$为函数的宽度参数，控制了函数的径向作用范围。|
由radial basis: $exp(-\gamma*|u-v|^2)$可知，$\gamma$越小，模型越简单，平滑度越好，分类边界越不容易过拟合。

65.假设我们要解决一个二类分类问题, 我们已经建立好了模型, 输出是0或1, 初始时设阈值为0.5, 超过0.5概率估计, 就判别为1, 否则就判别为0 ; 如果我们现在用另一个大于0.5的阈值, 那么现在关于模型说法, 正确的是 : 1 模型分类的召回率会降低或不变 2 模型分类的召回率会升高 3 模型分类准确率会升高或不变 4 模型分类准确率会降低

解析：

精确率, 准确率和召回率是广泛用于信息检索和统计学分类领域的度量值，用来评价结果的质量。下图可以帮助理解和记忆它们之间的关系, 其中精确率(precision)和准确率(accuracy)都是关于预测效果的描述.
召回率是关于预测样本的描述。
精确率表示的是预测为正的样本中有多少是真正的正样本。那么预测为正就有两种可能了，一种就是把正类预测为正类(TP)，另一种就是把负类预测为正类(FP), 也就是P = TP / (TP + FP)。
准确率表示的是预测的正负样本有多少是真实的正和负, 预测正确的数量占全部预测数量的比例, 也就是A = (TP + TN) / (TP + FP + TN + FN) = (TP + TN) / 全部样本。
召回率表示的是样本中的正例有多少被预测正确了。那也有两种可能，一种是把原来的正类预测成正类(TP)，另一种就是把原来的正类预测为负类(FN), 也就是R = TP / (TP + FN)。精确率和召回率二者计算方法其实就是分母不同，一个分母是预测为正的样本数，另一个是原来样本中所有的正样本数。

提高分界阈值大于0.5, 则预测为正的样本数要降低, 相当于把图中圆圈变小, 按下图则可计算

召回率的分子变小分母不变, 所以召回率会变小或不变; 精确率的分子分母同步变化, 所以精确率的变化不能确定; 准确率的分子为圆内绿色加圆外右侧矩形面积所围样本, 两者之和变化不能确定; 分母为矩形所含全部样本不变化, 所以准确率的变化不能确定; 综上, 所以选A。

66.“点击率问题”是这样一个预测问题, 99%的人是不会点击的, 而1%的人是会点击进去的, 所以这是一个非常不平衡的数据集. 假设, 现在我们已经建了一个模型来分类, 而且有了99%的预测准确率, 我们可以下的结论是

A　模型预测准确率已经很高了, 我们不需要做什么了
B　模型预测准确率不高, 我们需要做点什么改进模型
C　无法下结论
D　以上都不对

解析：

样本不均衡问题，虽然准确率很高，但是不能解决实际问题，我们非常关心那1%的数据，就应该选择另一个思路去优化模型或者是换一种模型，这里提供的评估准则不能是accuracy，可以是召回率，f1-score，fbeta，也可以直接用混淆矩阵
类别不均衡的情况下，不要用准确率做分类评估指标，因为全判断为不会点，准确率也是99%，但是这个分类器一点用都没有。详细可以参考这篇文章：https://www.analyticsvidhya.com/blog/2016/03/practical-guide-deal-imbalanced-classification-problems/

67.使用k=1的knn算法, 下图二类分类问题, “+” 和 “o” 分别代表两个类, 那么, 用仅拿出一个测试样本的交叉验证方法, 交叉验证的错误率是多少：

A　0%
B　100%
C　无法下结论
D　以上都不对

解析：
knn算法就是, 在样本周围看k个样本, 其中大多数样本的分类是A类, 我们就把这个样本分成A类. 显然, k=1 的knn在上图不是一个好选择, 分类的错误率始终是100%。
k=1的意思是把图中的数据只分为一个类别把，要么都是x，要么都是o。
而且留出了一个做验证集。
那么，每次留出某个样本作为验证集，剩下的9个样本中，看x多还是o多，那就最终决定是哪个类；
本题，不管留出的是10个中的哪一个，最后的9个被判别为的类型，都是与留出的一个验证集相反的，所以错误率100%

68.我们想在大数据集上训练决策树, 为了使用较少时间, 我们可以

A　增加树的深度
B　增加学习率 (learning rate)
C　减少树的深度
D　减少树的数量

解析：

增加树的深度, 会导致所有节点不断分裂, 直到叶子节点是纯的为止. 所以, 增加深度, 会延长训练时间. 决策树没有学习率参数可以调. (不像集成学习和其它有步长的学习方法) 决策树只有一棵树, 不是随机森林。

69.假如我们使用非线性可分的SVM目标函数作为最优化对象, 我们怎么保证模型线性可分？

A　设C=1
B　设C=0
C　设C=无穷大
D　以上都不对

解析:
非线性可分的SVM目标函数: $\min \limits_{w, b, \xi} \frac{1}{2} ||w||^2 + C\sum \limits_{i=1}^N \xi_i \quad (\xi_i位松弛变量) \\ \text{s.t.} y_i(w^T \cdot x_i + b) \geq 1 - \xi_i, \xi_i \geq 0, i=1,2,...,n$

其对偶问题为：$\min \limits_{\alpha} \frac{1}{2} \sum \limits_{i=1}^n \sum \limits_{j=1} \alpha_i \alpha_j y_i y_j (x_i \cdot x_j) - \sum \limits_{i=1}^n \alpha_i \\ \text{s.t.} \sum \limits_{i=1}^n \alpha_i y_i = 0; 0 \leq \alpha_i C, \quad i = 1,2,...,n$

线性可分的SVM目标函数：$\min \limits_{w,b} \frac{1}{2}||w||^2\\ \text{s.t.} y_i(w^T \cdot x_i + b) \geq 1 , i =1,2,...,n$

其对偶问题为: $\min \limits_{\alpha} \frac{1}{2} \sum \limits_{i=1}^n \sum \limits_{j=1}^n \alpha_i \alpha_j y_i y_j (x_i \cdot x_j) - \sum \limits_{i=1}^n \alpha_i \\ \text{s.t.} \sum \limits_{i=1} \alpha_i y_i = 0; \quad \alpha_i \geq 0, \quad i = 1,2,...,n$

对比两种情况下的对偶问题可知，当C取无穷大时，非线性可分的SVM变为线性可分的SVM，此时模型线性可分。原因是C无穷大时，松弛变量只能为0，否则非线性可分的SVM目标函数取不到最小值。

70.以下哪些算法, 可以用神经网络去构造: 1. KNN 2. 线性回归 3. 对数几率回归

A　1和 2
B　2 和 3
C　1, 2 和 3
D　以上都不是

解析：
1.KNN算法不需要训练参数, 而所有神经网络都需要训练参数, 因此神经网络帮不上忙
2.最简单的神经网络, 感知器, 其实就是线性回归的训练
3.我们可以用一层的神经网络构造对数几率回归

71.请选择下面可以应用隐马尔科夫(HMM)模型的选项

A　基因序列数据集
B　电影浏览数据集
C　股票市场数据集
D　所有以上

解析：
只要是和时间序列问题有关的 , 都可以试试HMM

72.我们建立一个5000个特征, 100万数据的机器学习模型. 我们怎么有效地应对这样的大数据训练 :

A　我们随机抽取一些样本, 在这些少量样本之上训练
B　我们可以试用在线机器学习算法
C　我们应用PCA算法降维, 减少特征数
D　B 和 C
E　A 和 B
F　以上所有

解析：

答案: 由于样本数过多或者特征数过多, 而不能单机完成训练, 可以用小批量样本训练, 或者在线累计式训练, 或者主成分PCA降维方式减少特征数量再进行训练。选项中的少量样本是相对于大数据量来说的，实际上并不少，具体的训练数据量要满足模型训练精度的前提。

73.我们想要减少数据集中的特征数, 即降维. 选择以下适合的方案 : 1. 使用前向特征选择方法 2. 使用后向特征排除方法 3. 我们先把所有特征都使用, 去训练一个模型, 得到测试集上的表现. 然后我们去掉一个特征, 再去训练, 用交叉验证看看测试集上的表现. 如果表现比原来还要好, 我们可以去除这个特征. 4. 查看相关性表, 去除相关性最高的一些特征

A　1 和 2
B　2, 3和4
C　1, 2和4
D　All

解析：

答案:
1.前向特征选择方法和后向特征排除方法是我们特征选择的常用方法
2.如果前向特征选择方法和后向特征排除方法在大数据上不适用, 可以用这里第三种方法.
3.用相关性的度量去删除多余特征, 也是一个好方法所有D是正确的

74.对于随机森林和GradientBoosting Trees, 下面说法正确的是: 1 在随机森林的单个树中, 树和树之间是有依赖的, 而GradientBoosting Trees中的单个树之间是没有依赖的 2 这两个模型都使用随机特征子集, 来生成许多单个的树 3 我们可以并行地生成GradientBoosting Trees单个树, 因为它们之间是没有依赖的 4 GradientBoosting Trees训练模型的表现总是比随机森林好

A　2
B　1 and 2
C　1, 3 and 4
D　2 and 4

解析：
答案:
1 随机森林是基于bagging的, 在随机森林的单个树中, 树和树之间是没有依赖的。
2 Gradient Boosting trees是基于boosting的，且GradientBoosting Trees中的单个树之间是有依赖关系。
3 这两个模型都使用随机特征子集, 来生成许多单个的树。所以题干中只有第二点是正确的，选A。

75.对于PCA(主成分分析)转化过的特征 , 朴素贝叶斯的”不依赖假设”总是成立, 因为所有主要成分是正交的, 这个说法是 :

A　正确的
B　错误的

解析：
这个说法是错误的, 首先, “不依赖”和”不相关”是两回事, 其次, 转化过的特征, 也可能是相关的

76.对于PCA说法正确的是 : 1. 我们必须在使用PCA前规范化数据 2. 我们应该选择使得模型有最大variance的主成分 3. 我们应该选择使得模型有最小variance的主成分 4. 我们可以使用PCA在低维度上做数据可视化

解析:
1）PCA对数据尺度很敏感, 打个比方, 如果单位是从km变为cm, 这样的数据尺度对PCA最后的结果可能很有影响(从不怎么重要的成分变为很重要的成分).
2）我们总是应该选择使得模型有最大variance的主成分
3）有时在低维度上左图是需要PCA的降维帮助的

77.对于下图, 最好的主成分选择是多少 ?

A　7
B　30
C　35
D　Can’t Say

解析：

答案: B 从图中可以看出主成分选择30个时方差最大，即此时后面的特征方差接近0，故没有太多的有用信息，可以舍弃掉，所以PCA（主成分分析法）可以实现特征降维。

78.数据科学家可能会同时使用多个算法（模型）进行预测，并且最后把这些算法的结果集成起来进行最后的预测（集成学习），以下对集成学习说法正确的是

A　单个模型之间有高相关性
B　单个模型之间有低相关性
C　在集成学习中使用“平均权重”而不是“投票”会比较好
D　单个模型都是用的一个算法

解析：
集成学习一般分为两种：boosting，bagging
boosting中各个模型串型生成，高度相关
bagging中各个模型可并行生成，低相关性
集成学习将多个子模型的结合起来，从理论上来说，准确率应该会很高。但是实际上往往没有那么恐怖的准确率。原因就是单个模型之间难免都会有较高的相关性，虽然我们致力于使子模型间的差异性足够大。

79.在有监督学习中，我们如何使用聚类方法？ 1. 我们可以先创建聚类类别，然后在每个类别上用监督学习分别进行学习 2. 我们可以使用聚类“类别id”作为一个新的特征项，然后再用监督学习分别进行学习 3. 在进行监督学习之前，我们不能新建聚类类别 4. 我们不可以使用聚类“类别id”作为一个新的特征项，然后再用监督学习分别进行学习

A　2 和 4
B　1 和 2
C　3 和 4
D　1 和 3

解析：
我们可以为每个聚类构建不同的模型，提高预测准确率。 “类别id”作为一个特征项去训练，可以有效地总结了数据特征。所以B是正确的

80.以下说法正确的是

A　一个机器学习模型，如果有较高准确率，总是说明这个分类器是好的
B　如果增加模型复杂度，那么模型的测试错误率总是会降低
C　不可以使用聚类“类别id”作为一个新的特征项，用监督学习进行学习
D　ABC全错

解析：
如果负样本占比非常大，也会有很高的准确率, 对正样本的分类不一定很好，A错误；
增加模型复杂度容易导致过拟合，结果就是训练集上错误率很低，测试集上错误率很高，B错误；
聚类“类别id”有效地总结了数据特征，可以作为一个新的特征项使用监督学习进行模型训练，C错误。综上所述，D正确。

91.对应GradientBoosting tree算法，以下说法正确的是: 1. 当增加最小样本分裂个数，我们可以抵制过拟合 2. 当增加最小样本分裂个数，会导致过拟合 3. 当我们减少训练单个学习器的样本个数，我们可以降低variance 4. 当我们减少训练单个学习器的样本个数，我们可以降低bias

A　2 和 4
B　2 和 3
C　1 和 3
D　1 和 4

解析:
最小样本分裂个数是用来控制“过拟合”参数。太高的值会导致“欠拟合”，这个参数应该用交叉验证来调节。第二点是靠bias和variance概念的。
多个相同数量的不同训练集，可以有效的降低模型的方差，因为即使训练集的数据是来源于同一个分布，所训练出来的模型也是不一样，不同的训练集可以用来平衡期望预测值，减少因为噪音而给模型的预测带来的影响，这是偏差-方差分解里面的内容，在boosting方法中，减少样本会使得模型更加简单，比如数的长度和深度都会相应的减少，使得模型不容易受到噪点的扰动，降低了variance提高了bias

92.以下哪个图是KNN算法的训练边界

解析:
KNN即K近邻算法，其基本思想是先选择和测试数据距离最近的K个已知类别的训练数据，然后将多数样本的类别作为测试数据的类别。KNN不需要训练模型参数，它实际上是利用训练数据集对特征向量空间进行划分，并将其作为分类的“模型”，K值的选择、距离度量、分类决策规则（一般为多数表决）是KNN的三个基本要素。KNN算法的训练边界一定不是直线，另外这个算法是看周围最近的k个样本的类别从而确定分类，所以边界一定是坑坑洼洼的。

93.如果一个训练好的模型在测试集上有100%的准确率，这是不是意味着在一个新的数据集上，也会有同样好的表现？

A　是的，这说明这个模型的范化能力已经足以支持新的数据集合了
B　不对，依然后其他因素模型没有考虑到，比如噪音数据

解析：
没有一个模型是可以总是适应新数据的。因此我们不可能可到100%准确率。

94.下面的交叉验证方法 i. 有放回的Bootstrap方法 ii. 留一个测试样本的交叉验证 iii. 5折交叉验证 iv. 重复两次的5折教程验证当样本是1000时，下面执行时间的顺序，正确的是

A　i > ii > iii > iv
B　ii > iv > iii > i
C　iv > i > ii > iii
D　ii > iii > iv > i

解析：

Boostrap方法是传统地随机抽样，验证一次的验证方法，只需要训练1次模型，所以时间最少。留一个测试样本的交叉验证，需要n次训练过程（n是样本个数），这里，要训练1000个模型。 5折交叉验证需要训练5个模型。重复2次的5折交叉验证，需要训练10个模型。所有B是正确的

95.变量选择是用来选择最好的判别器子集，如果要考虑模型效率，我们应该做哪些变量选择的考虑？ 1. 多个变量其实有相同的用处 2. 变量对于模型的解释有多大作用 3. 特征携带的信息 4. 交叉验证

A　1 和 4
B　1, 2 和 3
C　1,3 和 4
D　以上所有

解析:

①③④都做特征选择
②不管这个特征解释性强不强，我们只是进行选择而已。考虑效率的情况下，不需要去考虑

96.对于线性回归模型，增加一个特征变量，以下可能正确的是 : 1. R-Squared 和 Adjusted R-squared都是递增的 2. R-Squared 是常量的，Adjusted R-squared是递增的 3. R-Squared 是递减的， Adjusted R-squared 也是递减的 4. R-Squared 是递减的， Adjusted R-squared是递增的

A　1 和 2
B　1 和 3
C　2 和 4
D　以上都不是

解析:
线性回归问题中，$R-Squared$用来衡量回归方程与真实样本输出之间的相似程度，其表达式为:$R^2 = 1 - \frac{\sum(y-\hat{y})^2}{\sum(y - \overline{y})^2}$
上式中，分子部分表示真实值与预测值的平方差之和，类似于均方差MSE；
分母部分表示真实值与均值的平方差之和，类似于方差Var。
一般来说，R-Squared越大，表示模型拟合效果就越好。
单独看$R-Squared$，并不能推断出增加的特征是否有意义。
通常来说，增加一个特征，$R-Squared$可能变大也可能保持不变，；两者并不一定呈正相关。

97.对于下面三个模型的训练情况，下面说法正确的是:

1.第一张图的训练错误与其余两张图相比，是最大的
2.最后一张图的训练效果最好，因为训练错误最小
3.第二张图比第一和第三张图鲁棒性更强，是三个里面表现最好的模型
4.第三张图相对前两张图过拟合了
5.三个图表现一样，因为我们还没有测试数据集

A　1 和 3
B　2 和 3
C　1, 3 和 4
D　5

解析:
第一张图训练的模型对数据的拟合效果太差，训练误差最大，属于欠拟合，1对；第二张图训练的模型对数据的拟合效果较好，鲁棒性最强，模型表现最好，3对；第三张图训练的模型对数据的拟合效果最好，训练误差最小，但是属于过拟合，在测试集上的误差会很大，这样的模型不好，4对，2错。综上，答案选C。

98.对于线性回归，下面哪些说法是正确的？ 1. 找到离群点很重要, 因为线性回归对离群点很敏感 2. 线性回归要求所有变量必须符合正态分布 3. 线性回归假设数据没有多重线性相关性

A　1 和 2
B　2 和 3
C　1,2 和 3
D　以上都不是

解析:
第1个假设, 离群点要着重考虑, 第一点是对的第2个假设, 正态分布不是必须的. 当然, 如果是正态分布, 训练效果会更好第3个假设, 有少量的多重线性相关性也是可以的, 但是我们要尽量避免

99.当我们构造线性模型时, 我们注意变量间的相关性. 在相关矩阵中搜索相关系数时, 如果我们发现3对变量的相关系数是(Var1 和Var2, Var2和Var3, Var3和Var1)是-0.98, 0.45, 1.23 . 我们可以得出什么结论: 1. Var1和Var2是非常相关的 2. 因为Var1和Var2是非常相关的, 我们可以去除其中一个 3. Var3和Var1的1.23相关系数是不可能的

A　1 and 3
B　1 and 2
C　1,2 and 3
D　1

解析:
相关性系数范围应该是 [-1,1] 一般地, 如果相关系数大于0.7或者小于-0.7, 是高相关的. Var1和Var2相关系数是接近负1, 所以这是多重线性相关, 我们可以考虑去除其中一个. 所以1, 2, 3个结论都是对的, 选C.

100.如果在一个高度非线性并且复杂的一些变量中, 一个树模型可能比一般的回归模型效果更好. 这是（）

A　对的
B　错的

解析:
树模型可以处理非线性模型，并且树模型的区分度更好一些。

posted @ 2021-07-02 22:16 Xu_Lin 阅读(687) 评论(0) 编辑收藏举报

刷新页面返回顶部

名称	表达式	参数
线性核	\(\kappa(x_i, x_j) = x_i^Tx_j\)
多项式核	\(\kappa(x_i,x_j) = (x_i^Tx_j)^d\)	\(d \ge 1\)为多项式的次数
高斯核	$\kappa(x_i,y_j) = exp(-\frac{
拉普拉斯核	$\kappa(x_i,y_j) = exp(-\frac{
Sigmoid核	\(\kappa(x_i,x_j) = tanh(\beta x_i^Tx_j + \theta)\)	tanh为双曲正切函数，\(\beta>０, \theta< 0\)

Xu_Lin

Do more; Learn more; Be more

七月在线机器学习笔试练习整理