读书笔记-互联网大厂推荐算法实战
第二章 特征工程
2.1物料画像
2.1.1料属性
- 物料的唯⼀标识(Item ID)也是重要的特征
2.1.2物料类别和标签
- 内容理解会给出对应的概率,不一定是准确的值
2.1.3基于内容的embedding
2.1.4动态画像
- 后验效果只能说明,推给了合适的人,不能说明对任何人都是好效果
- 马太效应
2.1.5用户给物料反向打标
2.2用户画像
- 人口属性这种没啥用,对于新老用户。可以分别展开
- 新老用户公用一个模型的话,老用户贡献多,模型不会重视静态画像这种对新用户友好的特征
- 新用户单独用一个模型,数据少,噪声多
- 动态特征,行为序列,离线+在线
2.3偏差特征
- 更加严格定义正负样本
- 偏差特征只能通过⼀个线性层接⼊模型, ⽽绝不能和其他正常特征⼀起喂⼊DNN, 如图2-4所⽰。 只有这样接⼊, 才能保证预测时⽆论伪特征值的取值如何,都不会改变排序结果
- 离线和线上的不同
种一棵树最好的时间是十年前,其次是现在。