#Header1_HeaderTitle{ font-size:50px }

阿里电话面试

1. 常用的归一化。各自的作用

机器学习-数据归一化及哪些算法需要归一化

2. KMeans的步骤以及其他的聚类算法

  K-均值是因为它可以发现k个不同的簇,且每个簇的中心采用簇中所含值的均值计算

  其他聚类算法:二分K-均值

  讲解一下步骤,其实就是说明一下伪代码

随机选择k个点作为起始质心
        当任意一个点的簇分配结果发生改变时
            对数据集中的每个数据点
                对每个质心
                    计算质心与数据点之间的距离
                将数据分配到距其最近的簇
            对每一个簇,计算簇中所有点的均值并将均值作为质心

二分K-均值:(基于SSE的划分

该算法首先将所有点作为一个簇,然后将该簇一分为二。之后选择其中一个簇继续划分,选择哪一个簇进行划分取决于对其划分是否可以最大程度降低SSE的值

将所有点看成一个簇
当簇数目小于k时
对于每一个簇
    计算总误差
    在给定的簇上面进行K-均值聚类(k=2)
    计算将该簇一份为二之后的总误差
选择是的误差最小的那个簇进行划分

3. 解释一下AUC以及AUC的取值范围

ROC与AUC

4. 解释一下ReLU函数的作用

激活函数的比较,sigmoid,tanh,relu

5. 降低过拟合的方法      6. L1和L2正则化的作用

如何防止过拟合

7. 随机森林、GBDT的优缺点

8. 开放性题目:五个参数:用户ID、时刻、经纬度、WIFI的个数、WIFI是否连接 label:用户此时的地点(100万个)也就是有100万个类
问如何实现?

博主觉得类别数目太多,分类算法应该不行。试试聚类算法吧。

 

9. 归一化对哪些算法有效?哪些无效?   10. 归一化为什么对随机森林无效?

机器学习-数据归一化及哪些算法需要归一化


11. 讲一个你最熟悉的项目
12. 还有比快排更快的排序吗?

 

posted @ 2019-03-21 17:37  墨麟非攻  阅读(219)  评论(0编辑  收藏  举报