2017找工作_机器学习相关面经

1、什么是boosting tree

2、GBDT

3、L1和L2正则为何可以减弱over-fitting，L1和L2正则有什么区别？

从贝叶斯的角度来看, 正则化等价于对模型参数引入先验分布 http://www.cnblogs.com/ljygoodgoodstudydaydayup/p/6483560.html

L2正则化等价于对参数引入高斯先验 , L1正则化等价于对参数引入拉普拉斯先验

正则化参数等价于对参数引入先验分布，使得模型复杂度变小（缩小解空间），对于噪声以及 outliers 的鲁棒性增强（泛化能力）。整个最优化问题从贝叶斯观点来看是一种贝叶斯最大后验估计，其中正则化项对应后验估计中的先验信息，损失函数对应后验估计中的似然函数，两者的乘积即对应贝叶斯最大后验估计的形式。

4、KNN和LR有什么本质区别

5、怎么理解Dropout

6、为什么random forest具有特征选择的功能？

7、random forest有哪些重要的参数？

8、DNN为什么功能强大，说说你的理解

9、SVM的损失函数是什么？怎么理解。svm如何用于多分类？

目前，svm用于多分类的方法主要有：

1. “1-V-R方式”，就是每次解一个两类分类的问题。比如我们有5个类别，首先把类别1的样本定为正样本，其余的样本合起来定为负样本，得到一个两类分类器，它能够指出新的样本是不是第1类的；然后我们把类别2的样本定为正样本，把1、3、4、5的样本合起来定为负样本，得到一个分类器，如此下去，最终可以得到5个这样的两类分类器。这种方法的好处是每个优化问题的规模比较小，而且分类的时候速度很快（对于k类问题，把其中某一类的n个训练样本视为一类，所有其他类别归为另一类，需要训练k个分类器）。

但有时可能会出现两种特殊情况，某样本属于多个类别（分类重叠现象）或者是某样本没有判别为任何类别（不可分类现象）。而且，如果各个类别的样本数目是差不多的，“其余”那一类样本数总是要数倍于正类，这就人为的造成了“数据集偏斜”问题。

2. “1-V-1方式”，也就是我们所说的one-against-one方式。这种方法把其中的任意两类构造一个分类器，共有(k-1)×k/2个分类器。虽然分类器的数目多了，但是在训练阶段所用的总时间却比“一类对其余”方法少很多。

最后预测中如果出现分类重叠现象，可以采用voting方式（各个分类器向k个类别投票，取得票最高类）。但是如果类别数非常大时，要调用的分类器数目会达到类别数的平方量级，预测的运算量不可小觑。

3. “有向无环图（DAG-SVM）”，该方法在训练阶段采用1-V-1方式，而判别阶段采用一种二向无环图的方式。

如果类别数是k，则只调用k-1个分类器即可。但是如果开始的分类器回答错误，那么后面的分类器是无论如何也无法纠正它的错误的，其实对下面每一层的分类器都存在这种错误向下累积的现象。也有一些方法可以改善整体效果，我们总希望根节点少犯错误为好，因此参与第一次分类的两个类别，最好是差别特别大，或者取在两类分类中正确率最高的那个分类器作根节点，或者我们让两类分类器在分类的时候，不光输出类别的标签，还输出一个类似“置信度”，当它对自己的结果不太自信的时候，我们就不光按照它的输出走，它可会按照一定的概率走向另一分支。

LibSVM采用的是1-V-1方式，因为这种方式思路简单，并且许多实践证实效果比1-V-R方式要好。

10、介绍下Maxout

11、项目中over-fitting了，你怎么办

12、详细说一个你知道的优化算法(Adam等)

13、项目(比赛）怎么做的模型的ensemble

14、stacking是什么？需要注意哪些问题

15、了解哪些online learning的算法

16、如何解决样本不均衡的问题

17、fasterRCNN中的ROIPooling是如何实现的

18、如何进行特征的选择

19、如何进行模型的选择

20、什么是梯度消失？怎么解决

21、常用的有哪些损失函数

22、假设一个5*5的filter与图像卷积，如何降低计算量？

23、做过模型压缩吗？介绍下

24、什么是residual learning？说说你的理解

25、residual learning所说的residual和GBDT中的residual有什么区别？

26、FFM和FTRL有过了解吗？

27、用Map Reduce implement矩阵乘法

28、不同的activation function的pros/cons

29、如何处理diminishing gradient的问题

30、svm优缺点

31、Dropout为什么可以解决过拟合

32、如何用hadoop实现k-means

33、naive bayes和logistic regression的区别

朴素贝叶斯的参数估计： https://www.zhihu.com/question/33959624

贝叶斯与朴素贝叶斯的区别：朴素贝叶斯是在贝叶斯的基础上多了特征条件独立假设。

http://blog.csdn.net/chlele0105/article/details/38922551

区别：

(1) Naive Bayes是一个生成模型，在计算P(y|x)之前，先要从训练数据中计算P(x|y)和P(y)的概率，从而利用贝叶斯公式计算P(y|x)。

Logistic Regression是一个判别模型，它通过在训练数据集上最大化判别函数P(y|x)学习得到，不需要知道P(x|y)和P(y)。

(2) Naive Bayes是建立在特征条件独立假设基础之上的，设特征X含有n个特征属性（X1，X2，...Xn），那么在给定Y的情况下，X1，X2，...Xn是条件独立的。Logistic Regression的限制则要宽松很多，如果数据满足条件独立假设，Logistic Regression能够取得非常好的效果；当数据不满度条件独立假设时，Logistic Regression仍然能够通过调整参数让模型最大化的符合数据的分布，从而训练得到在现有数据集下的一个最优模型。

相同点：

Logistic regression和Naive bayes建模的都是条件概率，对所最终求得的不同类的结果有很好的解释性

34、用户流失率预测怎么做

http://www.jianshu.com/p/d3a72c0e05a0

1、数据采集

数据采集周期上我们以两个月的数据作为分析基础。利用第一个月用户的数据表现作为因变量，然后根据同一批用户第二个月的用户留存/流失情况，建立预测模型得到流失规则。如果是手游，以周甚至日为跨度可能更适合？

特征：

1）反映用户活跃：登录天数、在线时长、登录频次等等；

2）反映用户游戏表现：等级、竞技场段位、VIP等级、战斗力等等；

3）反映用户游戏行为：某些关键功能的使用情况、关卡通关情况、BOSS挑战情况、重要活动参与率等等；

4）反映用户资源拥有情况：服装/装备/宠物拥有数量、强力服装/装备/宠物拥有情况、游戏货币拥有情况等等；

5）反映用户社交情况：家族参与情况、活跃好友数量、发言情况等等。

6）反映用户消费情况：历史游戏货币兑换量、当月游戏货币兑换量、VIP开通月数、当月VIP续费情况等等；

流失预测的整体流程如所示，从公司内外部游戏以及各类应用中抽取各类用户，日常的登录天数，登录频次，最后登录时间等特征，以及最后的流失状况，来训练LR模型。然后根据每天用户相应特征，使用训练好的模型来进行预测，得到最可能流失的用户。

35、采用 EM 算法求解的模型有哪些，为什么不用牛顿法或梯度下降法？· 用 EM 算法推导解释 Kmeans

36、聚类算法中的距离度量有哪些？

37、卷积层为什么能抽取特征

卷积层的输出（feature map）可以看做是图像的每部分对于模版（kernel）的匹配程度，“模版”就是卷积核，”匹配程度”则是输入信号对于该卷积核的响应程度，卷积网络的输入图像或特征图的局部区域越符合卷积核结构，响应越高，即对于模版的匹配程度越高。

深度学习相关的一些面试题： https://zhuanlan.zhihu.com/p/25005808

posted @ 2017-07-25 22:25 合唱团abc 阅读(365) 评论(0) 编辑收藏举报

刷新页面返回顶部

合唱团abc

2017找工作_机器学习相关面经

公告