特征工程
特征使用方案
-
实现我们的目标需要哪些数据?基于业务理解 ,尽可能找出对因变量有影响的所有自变量
-
可用性评估
- 获取难度
- 覆盖率
- 准确率
-
特征获取方案
- 如何获取这些特征?
- 如何存储?
特征处理
特征清洗
- 清洗异常样本
- 采样
- 数据不均衡
- 样本权重
预处理
- 单个特征
- 归一化
- 离散化
- Dummy Coding
- 缺失值
- 数据变换
- log
- 指数
- Box-Cox
- 多个特征
- 降维
- PCA
- LDA
- 特征选择
- Filter
- 思路:自变量和目标变量之间的关联
- 相关系数
- 卡方检验
- 信息增益、互信息
- Wrapper
- 思路:通过目标函数( AUCMSE )来决定是否加入一个变量
- 迭代:产生特征子集,评价
- 完全搜索
- 启发式搜素
- 白随机搜索
- GA
- SA
- Embedded
- 思路:学习器自身自动选择特征
- 正则化
- L1 ---- Lasso
- L2 ---- Ridge
- 决策树 ---- 熵、信息增益
- 深度学习
- Filter
- 降维
- 衍生变量:对原始数据加工,生成有商业意义的变量
特征监控
- 特征有效性分析 ----- 特征重要性,权重
- 特征监控 ---- 监控重要特征 ---- 防止特征质量下降,影响模型效果