百度网页搜索部_数据挖掘实习生面试
1.快排
2.一组数,有正数、负数和零,如何找出和为0的三个数(稍微实现一下,如何快速找出某个数(折半查找));如果是四个数要怎么求
3.二维平面上若干个点,如何求出一条直线,过最多的点
4.讲一下logistic regression,对于各个特征维度的系数,能否判断哪个系数好哪个系数不好(不能),如何判断分类效果的好坏
5.k-means讲一遍,怎么确定聚类类别k选择的好坏
6.说说怎么处理过拟合,正则项l1和l2对于过拟合的处理有什么区别
7.mapreduce大概是怎么做的,如果给出网页的浏览日志(时间、url、浏览记录),如果用mapreduce算出 url pv uv
8.C++ const都有什么用处
9.在特征处理方面,知道些什么
10.有没有处理过什么数据
11.有没有做过什么项目