摘要: Target Encoding(目标编码),这是一种强大的特征编码技术,特别适用于处理高基数分类变量。 基本原理: Target Encoding 的核心思想是用目标变量的平均值来替换分类变量的每个类别。这种方法试图捕捉每个类别与目标变量之间的关系。 工作方式: 对于分类变量的每个类别,计算该类别对 阅读全文
posted @ 2024-08-15 15:00 zedliu 阅读(50) 评论(0) 推荐(0) 编辑
摘要: WOE编码是一种强大的特征编码方法,特别适用于二元分类问题,尤其在信用评分和风险建模领域被广泛使用。 基本原理: WOE编码的核心思想是通过比较每个类别中好客户(或正样本)和坏客户(或负样本)的分布来对分类变量进行编码。它衡量的是特征的每个类别对预测目标的影响程度。 计算公式: 对于特征X的某个类别 阅读全文
posted @ 2024-08-15 14:58 zedliu 阅读(27) 评论(0) 推荐(0) 编辑
摘要: Leave-One-Out Encoding(简称LOO编码)。这是一种针对分类变量的高级编码技术,特别适用于处理高基数(多类别)的特征。 基本原理: Leave-One-Out Encoding 是目标编码(Target Encoding)的一个变体。它的核心思想是:对于每个观察值,使用除了该观察 阅读全文
posted @ 2024-08-15 14:56 zedliu 阅读(19) 评论(0) 推荐(0) 编辑
摘要: 对于 UpliftRandomForestClassifier 模型,特别是在处理具有多个类别且分布不均匀的分类变量时,选择合适的特征编码方法非常重要。考虑到这种情况,以下是一些建议的特征编码方法: Target Encoding (目标编码) 这种方法特别适合处理高基数(多类别)的分类变量,并且能 阅读全文
posted @ 2024-08-15 14:47 zedliu 阅读(11) 评论(0) 推荐(0) 编辑