模型选择

数据量小,选用 high bias/low variance模型(Naive Bayes),因为low bias/high variance模型(KNN,logistic regression)会overfit

Naive Bayes:

简单,只需要计数就可以;数据量小时,也适用;如果各因素独立(比如词的出现间没有相互影响),会表现很好

Logistic Regression:

多种regulization可以使用;有概率输出,可以根据实际场景,调整阈值;适用于在线学习

SVM:

准确率高,但参数很多需要调整;适用与维度很高的数据;

Random forests:

准确率高,且不需要调整参数;训练快,计算消耗小,可扩展性好;处理类别特征很容易,且对于缺失值也能很好处理;

 

posted @ 2015-05-29 12:37  porco  阅读(220)  评论(0编辑  收藏  举报