数据预批处理-独热编码
优点:独热编码的值只有0和1,不同的类型存储在垂直的空间,解决了分类器不好处理属性数据的问题,在一定程度上也起到了扩充特征的作用,特征的增加也防止了模型的过拟合。
缺点:当类别的数量很多时,特征空间会变得非常大。在这种情况下,一般可以用主成分分析(PCA)来减少维度。而且one-hot encoding+PCA这种组合在实际中也非常有用。
优点:独热编码的值只有0和1,不同的类型存储在垂直的空间,解决了分类器不好处理属性数据的问题,在一定程度上也起到了扩充特征的作用,特征的增加也防止了模型的过拟合。
缺点:当类别的数量很多时,特征空间会变得非常大。在这种情况下,一般可以用主成分分析(PCA)来减少维度。而且one-hot encoding+PCA这种组合在实际中也非常有用。