读书笔记-互联网大厂推荐算法实战

第二章 特征工程

2.1物料画像

2.1.1料属性

  • 物料的唯⼀标识(Item ID)也是重要的特征

2.1.2物料类别和标签

  • 内容理解会给出对应的概率,不一定是准确的值

2.1.3基于内容的embedding

2.1.4动态画像

  • 后验效果只能说明,推给了合适的人,不能说明对任何人都是好效果
  • 马太效应

2.1.5用户给物料反向打标

2.2用户画像

  • 人口属性这种没啥用,对于新老用户。可以分别展开
  • 新老用户公用一个模型的话,老用户贡献多,模型不会重视静态画像这种对新用户友好的特征
  • 新用户单独用一个模型,数据少,噪声多
  • 动态特征,行为序列,离线+在线

2.3偏差特征

  • 更加严格定义正负样本
  • 偏差特征只能通过⼀个线性层接⼊模型, ⽽绝不能和其他正常特征⼀起喂⼊DNN, 如图2-4所⽰。 只有这样接⼊, 才能保证预测时⽆论伪特征值的取值如何,都不会改变排序结果
  • 离线和线上的不同
posted @ 2024-06-14 16:06  种树人  阅读(21)  评论(0编辑  收藏  举报