GBDT+LR

LR是线性模型,学习能力有限,此时特征工程尤其重要。现有的特征工程主要集中在寻找有区分度的特征、特征组合,但未必会有效果提升。

GBDT的算法特点可以用来发掘有区分度的特征、特征组合,减少特征工程中的人力成本。相当于将决策树的路径作为LR的输入特征,对于树的每条路径,都是通过最大增益分割出来的有区分性的路径,根据该路径得到的特征、特征组合都相对有区分性,理论上不亚于人工经验的处理方式

0.特征工程:基本特征处理包括去除相关性大的特征,离散变量one-hot,连续特征离散化

1.GBDT先训练得到一个二分类器,当GBDT训练好做预测的时候,输出的并不是最终的二分类概率值,而是要把模型中的每棵树计算得到的预测概率值所属的叶子结点位置记为1,这样,就构造出了新的训练数据。(每棵树也就弱分类器中有且只有一个叶子节点输出预测结果,所以在一个有n个弱分类器,共计m个叶子节点的GBDT中,每一条训练数据都会转换成1*m维的稀疏向量,其中n个为1,其余的都为0)

2.新的训练数据构造完成后,与原始训练数据中的label一并输入到LR分类器进行最终分类器的训练。在构造新训练数据的过程中,可能会导致新训练数据维度过大的问题,所以在LR中可以使用正则化来减少过拟合的风险

ID类特征是CTR预估中很重要的一类特征,但是ID过多,直接将ID作为feature进行建树肯定不行,考虑为每个ID建GBDT树,但长尾数据现象非常严重,广告也存在长尾现象,对于曝光充分训练样本充足的广告可以单独建树,发掘单个广告有区分度的特征,但对于曝光不足样本不充分的长尾广告,无法单独建树

所以分别利用GDBT建两类树,非ID类建一类树,ID类建一类树。非ID类:不以细粒度的ID建树,此类树作为base,即便曝光少的广告、广告主,仍可以通过此类树得到有区分性的特征、特征组合。ID类:以细粒度的ID建一类树,用于发现曝光充分的ID对应有区分性的特征、特征组合

posted @ 2020-07-15 22:23  rjxuu  阅读(190)  评论(0编辑  收藏  举报