机器学习与算法面试太难？

来源：
https://mp.weixin.qq.com/s/GrkCvU2Ia_mEaQmiffLotQ
作者：石晓文

八月参加了一些提前批的面试，包括阿里、百度、头条、贝壳、一点资讯等。整理了一些面试题，分享给大家。

一、机器学习基础题

1、LSTM的公式

2、RNN为什么出现梯度消失及BPTT的推导

3、DQN的基本原理么

4、GBDT和随机森林有什么区别

5、GBDT的原理，如何做分类和回归

6、随机森林的随机体现在哪方面

7、Wide &Deep的原理

8、GBDT+LR是怎么做的?

9、DQN模型为什么要做经验回放

10、数据之间如果不是独立同分布的会怎样

11、AUC的原理介绍一下

12、XGBOOst和GBDT的区别。

13、强化学习和监督学习的区别

14、神经网络里面的损失函数有哪些

15、机器学习中常见的激活函数有哪些？为什么通常需要零均值？

16、DeepFM介绍

17、FM推导

18、boosting和bagging的区别？

19、bagging为什么能减小方差？

20、交叉熵损失函数，0-1分类的交叉熵损失函数的形式。什么是凸函数？0-1分类如果用平方损失为什么用交叉熵而不是平方损失？

21、L1和L2有什么区别，从数学角度解释L2为什么能提升模型的泛化能力。

22、深度学习中，L2和dropout有哪些区别？

23、L1正则化有哪些好处

24、如果有一万个地理坐标，转换成1-10000的数，可以用决策树么？

25、CART分类树和ID3以及C4.5有什么区别？

26、树集成模型有哪几种实现方式：Bagging和Boosting，回答过程中又问到了很多细节。随即森林的随机体现在哪些方面，AdaBoost是如何改变样本权重，GBDT分类树拟合的是什么？

27、Dueling DQN和DQN有什么区别

28、early stop对参数有什么影响？

二、数据结构算法题

1、K个有序数组，找一个长度最小的区间，在这个区间里至少包含每个数组各一个数

2、n个[0,n)的数，求每个数的出现次数（不能开辟额外空间）

3、数组的全排列（空间复杂度O（1））

4、一堆钞票，尽可能均分（利用背包问题的思想）

5、无向无环图中，最短路径的最大值（Floyd算法)

6、层次遍历二叉树

7、字符串的最长公共子序列（动态规划）

8、树的前序遍历和zigzag遍历（非递归）

9、一个数组，所有数组都出现了两次，只有一个数出现了一次，返回这个数（位运算）

10、一个数组，一个数出现了超过一半次数，返回这个数

11、将除法的结果用字符串返回，如果能够除尽，则返回相除的结果，如果不能除尽，则无限循环部分用[]标记。

12、数组排序，假设数组排序后的位次和排序前的位次绝对值差值小于K，有什么比快排好的算法？

13、树中两个节点的第一个的公共祖先。

14、判断是否是回文链表

15、判断两个链表中是否有相同节点

三、实践题

1、如果你想往模型中加入一个特征，如何判定这个特征是否有效？

2、LR和FM的区别？FM需要进行交叉特征的选择么？如果在LR选了一部分特征做交叉之后，取得了比FM更好的效果，这是为什么？如果FM变成DeepFM之后，效果超过了LR，这又是为什么？

3、如果逻辑回归的所有样本的都是正样本，那么它学出来的超平面是怎样的？

4、哪些场景下的分类问题不适用于交叉熵损失函数？

5、推荐系统中你认为最重要的环节是什么？

6、多臂tiger machine中，有许多方法，比如e-greedy，timponson采样，UCB，这些方法都有哪些适用场景？

7、如何预测一家店分品类的销量

8、信息流采样，有n份数据，但是n的长度并不知道，设计一个采样算法，使得每份被选择的概率是相同的。

9、模型在线下评估和线上使用时，往往出现线上实际效果不如线下效果的情况，请分析可能的原因。

10、在CTR预估问题中，假设训练数据的正负样本数为1:4，测试数据中的正负样本数也为1:4，那么此时模型对测试集，学到的平均点击率为1/（1+4）,假设此时采取了欠采样策略，使正负样本数为1:1，对同样的测试集进行预测，平均点击率应该是多少？（样本量很大，初始总样本数为10亿）

posted @ 2018-09-06 08:24 SAP虾客阅读(589) 评论(0) 收藏举报

刷新页面返回顶部

机器学习与算法面试太难？

公告