特征工程

特征使用方案
特征处理
- 特征清洗
- 预处理
特征监控

特征使用方案

实现我们的目标需要哪些数据？基于业务理解 ,尽可能找出对因变量有影响的所有自变量
可用性评估
- 获取难度
- 覆盖率
- 准确率
特征获取方案
- 如何获取这些特征?
- 如何存储?

特征处理

特征清洗

清洗异常样本
采样
- 数据不均衡
- 样本权重

预处理

单个特征
- 归一化
- 离散化
- Dummy Coding
- 缺失值
- 数据变换
  - log
  - 指数
  - Box-Cox
多个特征
- 降维
  - PCA
  - LDA
- 特征选择
  - Filter
    - 思路:自变量和目标变量之间的关联
    - 相关系数
    - 卡方检验
    - 信息增益、互信息
  - Wrapper
    - 思路:通过目标函数( AUCMSE )来决定是否加入一个变量
    - 迭代:产生特征子集,评价
      - 完全搜索
      - 启发式搜素
      - 白随机搜索
        
        GA
        
        SA
  - Embedded
    - 思路：学习器自身自动选择特征
    - 正则化
      - L1 ---- Lasso
      - L2 ---- Ridge
    - 决策树 ---- 熵、信息增益
    - 深度学习
衍生变量：对原始数据加工，生成有商业意义的变量

特征监控

特征有效性分析 ----- 特征重要性，权重
特征监控 ---- 监控重要特征 ---- 防止特征质量下降，影响模型效果

posted @ 2021-02-02 16:31 芥末味汤圆阅读(100) 评论(0) 收藏举报

刷新页面返回顶部