读书笔记-互联网大厂推荐算法实战
第二章 特征工程#
2.1物料画像#
2.1.1料属性#
- 物料的唯⼀标识(Item ID)也是重要的特征
2.1.2物料类别和标签#
- 内容理解会给出对应的概率,不一定是准确的值
2.1.3基于内容的embedding#
2.1.4动态画像#
- 后验效果只能说明,推给了合适的人,不能说明对任何人都是好效果
- 马太效应
2.1.5用户给物料反向打标#
2.2用户画像#
- 人口属性这种没啥用,对于新老用户。可以分别展开
- 新老用户公用一个模型的话,老用户贡献多,模型不会重视静态画像这种对新用户友好的特征
- 新用户单独用一个模型,数据少,噪声多
- 动态特征,行为序列,离线+在线
2.3偏差特征#
- 更加严格定义正负样本
- 偏差特征只能通过⼀个线性层接⼊模型, ⽽绝不能和其他正常特征⼀起喂⼊DNN, 如图2-4所⽰。 只有这样接⼊, 才能保证预测时⽆论伪特征值的取值如何,都不会改变排序结果
- 离线和线上的不同
种一棵树最好的时间是十年前,其次是现在。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 三行代码完成国际化适配,妙~啊~
· .NET Core 中如何实现缓存的预热?
2020-06-14 matplotlib