one-hot encoding与哑变量的区别

one-hot encoding与哑变量的区别
one-hot比哑变量的特征位多一位,即哑变量是精简版的one-hot,即在线性回归中用截距项来表示最后一维,但由于最初很难分辨特征的主次关系,且机器学习中多数情况为非线性回归,所以哑变量不太适用(蒙的,有待考证,回头纠正)
one_hot将特征映射到欧式空间,编码后每一个特征都是连续的,可以跟连续特征归一化一样联系起来
树模型不需要one_hot编码,决策树、随机森林,bagging,boost等都不需要
LabelEncoder() 将转换成连续的数值型变量。即是对不连续的数字或者文本进行编号
posted @ 2019-12-11 14:25  Christbao  阅读(860)  评论(0编辑  收藏  举报