百度feed 寒假实习 一面二面(offer)
一面(1小时)
自我介绍,研究方向,本科学校,家乡等等。。
1 介绍了jdd风险登录的比赛,问题背景,建模,特征构建,特征选择,模型等。
个人觉得介绍项目一定要高大上一点,把自己创新或者有创意的点子讲出来。
2 介绍360 机器文章识别的比赛。问题背景,建模啥的。
答:这个地方 ,我们是用的cnn,又分char cnn word cnn。问:哪个效果好?为什么?答:char 的好,因为我觉得机器文章
写得不一定符合语法,分词之后可能会有一些奇怪的,不是词的词,这样的词可能只会在某一篇文章里有,泛化能力差一些。
3 看你简历机器学习算法了解一些,那就讲讲朴素贝叶斯吧。
公式记得不全,在面试官的提醒下,勉强写出来了。。
4 用朴素贝叶斯做情感分类。说一下思路,从构建词典说起。
这个答得也不是很好,也是在面试官提醒下 勉强说出来了。
这个答案 在机器学习实战上有,当时没看完。。
5 手写代码
倒排索引相关。
也是在面试官提醒下,写出来的。
二面(40分钟)
自我介绍。
聊比赛,搜狗用户画像构建的。
tfidf 是什么,idf 的公式是什么?
公式也给忘了,大概说了一下思想。
lda 主题模型中 采样是什么?为什么要采样?
采样是为了参数估计,具体也给忘了。
svm用过吗?原理是什么?自己编的程序还是掉的包?掉的啥包?
本来打算手推公式,推了一半,就不让我推了。
lr是什么?原理是什么?
360机器文章识别的比赛、跟一面问的差不多。
本科学过数据结构么?
答:没学过,学过通信原理。
通信原理是什么?
哈哈,把面试官引导到这里来。给他讲了讲通信原理的框架。
手撕代码
给一个文本文件。每一行是一篇文章,已经分好词,用空格分割,统计每个词都在哪些文章中出现过。
跟一面的题差不多,就是建个词典,词典的key是词,value是文章id.,暴力的循环。 感觉时间复杂度比较高
我问面试官有木有简单点的方法 ,他也不知道。
总结:第一次去现场面试,而且是百度这样的公司,因为自己本硕双非,又不是科班,之前一直没有自信,但是现场并没有那么难。
尤其是手写代码,不用运行,思路正确应该就没啥问题。
等明天的结果吧。good luck.
今天看的一个面经名言:把面试官当成未来的同事,幽默一点。