读书笔记-互联网大厂推荐算法实战

第二章 特征工程#

2.1物料画像#

2.1.1料属性#

  • 物料的唯⼀标识(Item ID)也是重要的特征

2.1.2物料类别和标签#

  • 内容理解会给出对应的概率,不一定是准确的值

2.1.3基于内容的embedding#

2.1.4动态画像#

  • 后验效果只能说明,推给了合适的人,不能说明对任何人都是好效果
  • 马太效应

2.1.5用户给物料反向打标#

2.2用户画像#

  • 人口属性这种没啥用,对于新老用户。可以分别展开
  • 新老用户公用一个模型的话,老用户贡献多,模型不会重视静态画像这种对新用户友好的特征
  • 新用户单独用一个模型,数据少,噪声多
  • 动态特征,行为序列,离线+在线

2.3偏差特征#

  • 更加严格定义正负样本
  • 偏差特征只能通过⼀个线性层接⼊模型, ⽽绝不能和其他正常特征⼀起喂⼊DNN, 如图2-4所⽰。 只有这样接⼊, 才能保证预测时⽆论伪特征值的取值如何,都不会改变排序结果
  • 离线和线上的不同
posted @   种树人  阅读(98)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 三行代码完成国际化适配,妙~啊~
· .NET Core 中如何实现缓存的预热?
历史上的今天:
2020-06-14 matplotlib
点击右上角即可分享
微信分享提示
CONTENTS