模型选择

数据量小，选用 high bias/low variance模型（Naive Bayes），因为low bias/high variance模型（KNN，logistic regression）会overfit

Naive Bayes：

简单，只需要计数就可以；数据量小时，也适用；如果各因素独立（比如词的出现间没有相互影响），会表现很好

Logistic Regression：

多种regulization可以使用；有概率输出，可以根据实际场景，调整阈值；适用于在线学习

SVM：

准确率高，但参数很多需要调整；适用与维度很高的数据；

Random forests:

准确率高，且不需要调整参数；训练快，计算消耗小，可扩展性好；处理类别特征很容易，且对于缺失值也能很好处理；

posted @ 2015-05-29 12:37 porco 阅读(220) 评论(0) 编辑收藏举报

刷新页面返回顶部

红猪飞天侠