onehot后导致维数激增的解决方法
独热编码应用于有许多类的列时,会导致并行性和多重共线性问题。
解决方式有: ①限制n个最常见的类别(可覆盖约95%的数量)
②频率编码:用其计数或者频率代替某个类别(最常用)。缺点:若计数相同,则模型做相同处理导致信息丢失
③目标编码:用该类别的平均目标值作为一维数值向量
④嵌入:对于文本数据类型或具有字符串值且不特定于领域的类别变量,可以使用预先训练的模型(如Word2Vec)将它们转换为词嵌入。如果数据集具有较长的文本类别,则可以对Word2Vec取加权平均值或使用预先训练过的Sent2Vec。