什么是组合特征?如何处理高维组合特征?

 

 

 

 

特征降维其实从大的方面来讲有两种思路可以走:

  • 基于原有的特征进行降维
  • 基于原有的特征进行筛选

第一种降维方法中,常见的有:PCA、LDA、SVD、稀疏自编码、word2vec等

第二种筛选的方法主要是对原有特征和目标label进行重要性分析,将那些不重要的特征进行剔除,比如使用gbdt、random forest等模型进行简单的模型训练,并输出特征的权重,继而进行筛选

但有时为了能更有效地找出输入数据内部的结构和模式,会寻找一组超完备基向量,其维度可能比输入的特征维度还要高。

补充一下特征降维的好处:

  • 数据维度降低,存储所需的空间减少
  • 减少计算和训练模型的时间
  • 剔除无用或关系不大的特征,减小对模型的影响,提高模型可用性
  • 删除冗余特征(比如某几维特征存在多重共线性)
  • 便于数据可视化
posted @ 2020-11-10 16:48  MiQing4in  阅读(1283)  评论(0编辑  收藏  举报