数据预批处理-独热编码

优点:独热编码的值只有0和1,不同的类型存储在垂直的空间,解决了分类器不好处理属性数据的问题,在一定程度上也起到了扩充特征的作用,特征的增加也防止了模型的过拟合。

缺点:当类别的数量很多时,特征空间会变得非常大。在这种情况下,一般可以用主成分分析(PCA)来减少维度。而且one-hot encoding+PCA这种组合在实际中也非常有用。

 

https://www.jianshu.com/p/42e93acacc52

https://www.jianshu.com/p/42e93acacc52

posted @ 2020-02-24 21:15  少年奶油喵  阅读(251)  评论(0编辑  收藏  举报