随笔分类 -  搜索与推荐

摘要:推荐中的重要用户特征: 1)用户画像,基础属性信息; 2)环境特征,一线还是45线小城镇; 3)资讯特征,新闻or搞笑or即时资讯; 4)相关性特征,关键词匹配特征,类别特征,匹配程度; 5)热度特征,有热度的咨询会做全局推送; 6)协同特征,比较强大的工具,系统过滤模型通过作品的相似程度进行推送 阅读全文
posted @ 2022-03-29 10:02 今夜无风 阅读(28) 评论(0) 推荐(0) 编辑
摘要:from keras import Sequential, Model from keras.optimizers import Adam from keras.callbacks import ModelCheckpoint, ReduceLROnPlateau from keras.layers 阅读全文
posted @ 2022-03-03 10:36 今夜无风 阅读(1151) 评论(0) 推荐(0) 编辑
摘要:对于变长特征编码,我们往往需要用到此。它们的作用是: Padding:将本来不相同的样本填充到相同的长度,以便于后面的处理,我们一般使用0做填充 Mask:告诉网络层那些是真正的数据,哪些是填充的“0”,从而帮助网络层更好地计算 目的:提升序列模型的精度和准确率 使用方法如下: # 第一步,将数据p 阅读全文
posted @ 2022-03-02 16:26 今夜无风 阅读(709) 评论(0) 推荐(0) 编辑
摘要:loss的设计对系统来说至关重要,最初采用用户侧和商品侧向量的夹角余弦,binary_crossentropy进行优化,无法得到满意的模型效果,依托深度模型强大的拟合能力,特征向量居然全部归零。随后重新对系统改进,主要是1.负样本构建;2.loss函数设计 这里主要讲第二点。 基于距离的损失函数-- 阅读全文
posted @ 2022-02-16 14:25 今夜无风 阅读(563) 评论(0) 推荐(0) 编辑
摘要:1.多输入、多输出 模型某一层接收多输入数据,以实现共享该层参数的目的。如对title和desc做文本分类,两类可以共享一个embedding数据,进而获取某种关联特征,示例代码如下: title = Input(shape=(30,),name="title") desc = Input(shap 阅读全文
posted @ 2022-02-11 11:28 今夜无风 阅读(898) 评论(0) 推荐(0) 编辑
摘要:模型结构:双塔结构,包括user tower和item tower 重要的几点: 1.user tower包括了用户的年龄、性别、期望等基本属性,行为数据:搜索query及前7天历史query 2.item tower包括了物品数据(行业特性决定),title、skills、desc,纯文本形式 3 阅读全文
posted @ 2022-02-09 21:48 今夜无风 阅读(128) 评论(0) 推荐(0) 编辑
摘要:注意:此模式下不能用fit_generator() 方式训练 """ GPU test """ import os import sys os.system('pip install -i https://pypi.tuna.tsinghua.edu.cn/simple keras==2.3.1') 阅读全文
posted @ 2022-01-30 10:16 今夜无风 阅读(395) 评论(0) 推荐(0) 编辑
摘要:关于信息流推荐系统中召回模块建模采样方式的讨论大家好,我是CNU小学生,国内top10-20互联网公司小兵一枚,在此抛砖引玉,真诚希望各位读者不吝赐教。 1.信息流推荐系统中的召回业务 2019年知名互联网公司的信息流推荐系统项目可大致分为4个模块:用户画像,物品画像,召回,排序。 召回模块的功能是 阅读全文
posted @ 2022-01-21 16:46 今夜无风 阅读(105) 评论(0) 推荐(0) 编辑
摘要:对于Category的特征,我们通常有两种方法把它变成一个数字:Label编码和hash编码;使用sklearn的LabelEncoder可以实现把Label编码成数字。 现在主要介绍使用hash方法对类别进行编码 1.在大型工业场景下,会源源不断地出现新的item,新的用户,新的id,原先的one 阅读全文
posted @ 2022-01-20 22:45 今夜无风 阅读(593) 评论(0) 推荐(0) 编辑
摘要:推荐系统中最重要的两部分是特征和模型,早期模型上没有很大突破的时候,人工特征工程是推荐系统发展的主要方向。在这里我总结一下做特征工程的思路和不同特征的处理方式。 1. 创造特征的思路 业务背景特征在推荐系统中猜测用户是否点击内容,可以仔细分析用户从打开手机到看到推荐内容的整个过程中的任何因素,比如这 阅读全文
posted @ 2022-01-20 17:22 今夜无风 阅读(390) 评论(0) 推荐(0) 编辑
摘要:最好的trick就是保证数据精准前提下,如无必要,不要采样。既然数据是模型的上限,就不应该破坏这个上限。 聊聊什么是精准。 很多号称数据清洗的工作,都是工程体系太弱的后果,其实不是算法的问题。比如,没有曝光日志,用了服务端日志,伪曝光做了负样本;没有准确的曝光日志,比如卡片漏出了一个头用户根本没看到 阅读全文
posted @ 2021-03-30 21:16 今夜无风 阅读(2102) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示