2024 年 8月 15 日随笔档案 - zedliu

2024年8月15日

摘要： Target Encoding（目标编码），这是一种强大的特征编码技术，特别适用于处理高基数分类变量。基本原理： Target Encoding 的核心思想是用目标变量的平均值来替换分类变量的每个类别。这种方法试图捕捉每个类别与目标变量之间的关系。工作方式：对于分类变量的每个类别，计算该类别对阅读全文

posted @ 2024-08-15 15:00 zedliu 阅读(122) 评论(0) 推荐(0) 编辑

Weight of Evidence (WOE) Encoding

摘要： WOE编码是一种强大的特征编码方法，特别适用于二元分类问题，尤其在信用评分和风险建模领域被广泛使用。基本原理： WOE编码的核心思想是通过比较每个类别中好客户（或正样本）和坏客户（或负样本）的分布来对分类变量进行编码。它衡量的是特征的每个类别对预测目标的影响程度。计算公式：对于特征X的某个类别阅读全文

posted @ 2024-08-15 14:58 zedliu 阅读(51) 评论(0) 推荐(0) 编辑

Leave-One-Out Encoding

摘要： Leave-One-Out Encoding（简称LOO编码）。这是一种针对分类变量的高级编码技术，特别适用于处理高基数（多类别）的特征。基本原理： Leave-One-Out Encoding 是目标编码（Target Encoding）的一个变体。它的核心思想是：对于每个观察值，使用除了该观察阅读全文

posted @ 2024-08-15 14:56 zedliu 阅读(30) 评论(0) 推荐(0) 编辑

因果推断 uplift特征编码方式选择

摘要：对于 UpliftRandomForestClassifier 模型，特别是在处理具有多个类别且分布不均匀的分类变量时，选择合适的特征编码方法非常重要。考虑到这种情况，以下是一些建议的特征编码方法： Target Encoding (目标编码) 这种方法特别适合处理高基数（多类别）的分类变量，并且能阅读全文

posted @ 2024-08-15 14:47 zedliu 阅读(25) 评论(0) 推荐(0) 编辑

lzedong

公告