机器学习常见问题

伪代码实现:LR、梯度下降、最小二乘、KNN、Kmeans;

LR(logistic回归):一般有两个用途:1、用来预测 2、用来寻找因变量中的影响因素
假设X为自变量,Y为因变量,如果X的个数为1,那么就叫一元回归分析;大于一个就叫多元回归分析;

对于一元回归分析:


对于多元回归分析:

基本知识:

1)监督与非监督区别;

2)L1L2区别;

3)生成模型和判别模型区别 像贝叶斯,lda 等就是生成模型,计算过概率分布之类的

算法的优缺点以及相应解决方案:k-means, KNN, apriori

算法原理:LR、KNN、k-means、apriori、ID3(C45,CART)、SVM、神经网络,协同过滤,em算法

常见问题:

1)svm算法的原理、如何组织训练数据、如何调节惩罚因子、如何防止过拟合、svm的泛化能力、增量学习

2)神经网络参数相关。比如,参数的范围?如何防止过拟合?隐藏层点的个数多了怎样少了怎样?什么情况下参数是负数?

3)为什么要用逻辑回归?

4)决策树算法是按什么来进行分类的?

  1. 朴素贝叶斯公式

  2. 讲em算法

7)svm中rbf核函数与高斯和函数的比较

8)说一下SVM的实现和运用过程

9)谈谈DNN

10)简单说说决策树分析

11)推荐系统中基于svd方法

12)SVM有哪些优势,(x,y,z)三个特征如何用径向基核函数抽取第四维特征

13)userCF和ItemCF在实际当中如何使用,提供具体操作,以及它们的优势(推荐系统)

14)如何用Logic regression建立一个广告点击次数预测模型

15)举一个适合采用层次分析法的例子

17)关联分析中的极大频繁项集;FP增长算法

18)线性分类器与非线性分类器的区别及优劣

19)特征比数据量还大时,选择什么样的分类器

20)对于维度很高的特征,你是选择线性还是非线性分类器

  1. 对于维度极低的特征,你是选择线性还是非线性分类器

  2. 如何解决过拟合问题

  3. L1和L2正则的区别,如何选择L1和L2正则

  4. 随机森林的学习过程

  5. 随机森林中的每一棵树是如何学习的

  6. 随机森林学习算法中CART树的基尼指数是什么

27)支持向量机、图模型、波尔茨曼机,内存压缩、红黑树、并行度

28) 如何搭建一个推荐平台,给出具体的想法,
29) 实现一个中文输入法

30) k-meanshift的机制,能不能用伪码实现
31)实现最小二乘法。

posted @ 2017-08-07 19:35  John95  阅读(395)  评论(0编辑  收藏  举报