【读文章】2-特征编码的一些总结-推荐系统、数据挖掘、特征工程
特征处理编码:
数据类型:数值 字符
是否有顺序
类别数量:高低基数
1、独热编码 针对无序低基数类离散特征,使之变为哑特征
不适合高基数的特征
2、标签编码:针对无序低基数类型的离散特征 形式简单且对于低基数特征有效
3、woe编码:代表特征对于y标签的预测能力,常用于描述区分好坏客户的衡量标准
4、平均数编码:用于高基数类特征的编码
5、模型编码:使用GS编码 将类别特征转为累积值 lightGBM Catboost
1、woe的计算过程
WOE = ln (第i个分箱的坏人数 / 总坏人数) - ln (第i个分箱的好人数 / 总好人数)
这个公式可以理解为每个箱体坏人分布相比于好人分布的差异性
处理非线性特征
2、
分类:
网上什么都有 但是拿来就是我的了
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律