机器学习的几个误区-转载

写的还不错。里面还引申了好几个概念，包括AdaBoost，L1/L2正则（范数）等。

提纲列一下：

1. 使用模型默认的损失函数

例如我在珍爱网做付费用户预测时，由于付费用户本身数量级就不大，所以我宁可误判十个，也不能错过一个。所以这个时候我们就需要去修改分类器模型的损失函数。

2. 无根据地选择线性模型

我个人的经验往往是先使用逻辑回归做一次分类，但是同时也会采用决策树，或者SVM等非线性模型来对该数据进行重新的分类比对。

3. 忽视异常值的意义

如果当训练数据中包含一些异常值的时候，我们就需要考虑模型的敏感性了，例如AdaBoost, Kmeans这种就属于对异常值很敏感的机器学习模型。

4. 不考虑n和p的关系

n: 训练数据的数量。p: 特征的数量。如果当n << p的时候，还依然采用SVM来选定模型，那么就必然会导致p进一步增加，于是导致特征的参数中自由变量增加，必然会对分类的效果产生很大的影响。

5. L1 / L2 正则化之前并没有对特征进行标准化

6. 变量之间的共线性问题

posted @ 2017-01-18 22:16 blcblc 阅读(341) 评论(0) 收藏举报

刷新页面返回顶部

笨鸟居士的博客