机器学习面试问题10
线性分类器与非线性分类器的区别及优势
线性分类器:模型是参数的线性函数,分类平面是(超)平面;
非线性分类器:模型分界面可以是曲面或者超平面的组合。
典型的线性分类器有感知机,LDA,逻辑斯特回归,SVM(线性核);
典型的非线性分类器有朴素贝叶斯(有文章说这个本质是线性的,http://dataunion.org/12344.html),kNN,决策树,SVM(非线性核)
线性分类器判别简单、易实现、且需要的计算量和存储量小。
为解决比较复杂的线性不可分样本分类问题,提出非线性判别函数。:超曲面,非线性判别函数计算复杂,实际应用上受到较大的限制。在线性分类器的基础上,用分段线性分类器可以实现复杂的分类面。解决问题比较简便的方法是采用多个线性分界面将它们分段连接,用分段线性判别划分去逼近分界的超曲面。
特征比数据量还大时,选择什么样的分类器
如果训练集很小,那么高偏差/低方差分类器(如朴素贝叶斯分类器)要优于低偏差/高方差分类器(如k近邻分类器),因为后者容易过拟合。然而,随着训练集的增大,低偏差/高方差分类器将开始胜出(它们具有较低的渐近误差),因为高偏差分类器不足以提供准确的模型。你也可以认为这是生成模型与判别模型的区别。
对于维度很高的特征,你是选择线性分类器还是非线性分类器。
选择非线性分类器。
对于维度很低的特征,你是选择线性分类器还是非线性分类器。
选择线性分类器。
总结:
如果分类面是二维平面,就选择线性分类器,如果是曲面,就选择非线性分类器。
比较详细的博客可参见:
http://www.doc88.com/p-9975445807186.html
厚积薄发,行胜于言@飞鸟各投林