特征选择、特征重要性分析
1. 深入了解任务邻域,选出和任务相关的特征。
2. 用方差、相关系数、卡方检验、熵模型等来筛选特征。
3. 把所有的特征都用来训练一个模型,去掉权重较小的特征。
4. 用诸如L1,L2等正则化方法来筛选特征。
5. 用一些特征组合的方法(如加和,乘积,除商等)来产生高级特征。
在实际生产环境中如何进行特征重要性分析呢?
1. mask掉该特征,看其对auc的影响
2. 对于LR,看其权重平方大小,对于FM或者是DNN,计算其embedding的L2范数