随笔分类 -  NLP

上一页 1 2 3 4 5 6 ··· 12 下一页
摘要:1.多输入、多输出 模型某一层接收多输入数据,以实现共享该层参数的目的。如对title和desc做文本分类,两类可以共享一个embedding数据,进而获取某种关联特征,示例代码如下: title = Input(shape=(30,),name="title") desc = Input(shap 阅读全文
posted @ 2022-02-11 11:28 今夜无风 阅读(898) 评论(0) 推荐(0) 编辑
摘要:模型结构:双塔结构,包括user tower和item tower 重要的几点: 1.user tower包括了用户的年龄、性别、期望等基本属性,行为数据:搜索query及前7天历史query 2.item tower包括了物品数据(行业特性决定),title、skills、desc,纯文本形式 3 阅读全文
posted @ 2022-02-09 21:48 今夜无风 阅读(128) 评论(0) 推荐(0) 编辑
摘要:最近笔者在实验室做一些跨语言检索的研究,这是一种「面向相关性」的向量召回方法,然而在实际的搜索应用中,仅仅考虑相关性往往是不够的。尤其在候选量很大、计算资源有限的情况下,我们更希望优先召回高成交率的商品。 想要达到这种目标,需要在语义相关(Semantic)目标基础上增加「个性化」(Personal 阅读全文
posted @ 2022-02-09 20:57 今夜无风 阅读(634) 评论(0) 推荐(0) 编辑
摘要:注意:此模式下不能用fit_generator() 方式训练 """ GPU test """ import os import sys os.system('pip install -i https://pypi.tuna.tsinghua.edu.cn/simple keras==2.3.1') 阅读全文
posted @ 2022-01-30 10:16 今夜无风 阅读(395) 评论(0) 推荐(0) 编辑
摘要:1. Item2vec 作为 Word2vec 模型的推广,理论上可以利用任何序列型数据生成物品的 Embedding 向量, 这大大拓展了 Word2vec 的应用场景。广义上的 Item2vec 模型其实是物品向量化方法的统称,它可以利用不同的深度学习网络结构对物品特征进行 Embedding 阅读全文
posted @ 2022-01-24 16:58 今夜无风 阅读(755) 评论(0) 推荐(1) 编辑
摘要:关于信息流推荐系统中召回模块建模采样方式的讨论大家好,我是CNU小学生,国内top10-20互联网公司小兵一枚,在此抛砖引玉,真诚希望各位读者不吝赐教。 1.信息流推荐系统中的召回业务 2019年知名互联网公司的信息流推荐系统项目可大致分为4个模块:用户画像,物品画像,召回,排序。 召回模块的功能是 阅读全文
posted @ 2022-01-21 16:46 今夜无风 阅读(105) 评论(0) 推荐(0) 编辑
摘要:为了便于观察两种情况下的类别出现情况,可以通过合并索引观察: 比较: 阅读全文
posted @ 2022-01-21 14:43 今夜无风 阅读(224) 评论(0) 推荐(0) 编辑
摘要:一是特征工程。 第二是算法定义和调参,就是你该选择什么样的算法,用什么样的参数进行调节。 第三是数据采集和清洗,接下来是实现这个算法并进行优化。‘I’代表和业务生产系统集成,所以我们就会简称为FaDAI这五大步骤。特征工程是这五大环节最重要的一部分 阅读全文
posted @ 2022-01-21 10:22 今夜无风 阅读(249) 评论(0) 推荐(0) 编辑
摘要:对于Category的特征,我们通常有两种方法把它变成一个数字:Label编码和hash编码;使用sklearn的LabelEncoder可以实现把Label编码成数字。 现在主要介绍使用hash方法对类别进行编码 1.在大型工业场景下,会源源不断地出现新的item,新的用户,新的id,原先的one 阅读全文
posted @ 2022-01-20 22:45 今夜无风 阅读(593) 评论(0) 推荐(0) 编辑
摘要:推荐系统中最重要的两部分是特征和模型,早期模型上没有很大突破的时候,人工特征工程是推荐系统发展的主要方向。在这里我总结一下做特征工程的思路和不同特征的处理方式。 1. 创造特征的思路 业务背景特征在推荐系统中猜测用户是否点击内容,可以仔细分析用户从打开手机到看到推荐内容的整个过程中的任何因素,比如这 阅读全文
posted @ 2022-01-20 17:22 今夜无风 阅读(390) 评论(0) 推荐(0) 编辑
摘要:参考地址:https://zhuanlan.zhihu.com/p/398630370https://www.modb.pro/db/152185https://blog.csdn.net/xiewenbo/article/details/103859633?spm=1001.2101.3001.6 阅读全文
posted @ 2022-01-20 10:10 今夜无风 阅读(750) 评论(0) 推荐(0) 编辑
摘要:最近将之前所做项目查阅的资料进行汇总,比较琐碎,希望有些知识点或者想法能帮助到你。 参考文献地址:https://blog.csdn.net/u011412768/article/details/93404921https://blog.csdn.net/a2639491403/article/de 阅读全文
posted @ 2022-01-20 10:09 今夜无风 阅读(394) 评论(0) 推荐(0) 编辑
摘要:1.模型构建 def get_model(): """函数式API搭建双塔DNN模型""" # 输入 user_id = keras.layers.Input(shape=(1,), name="user_id") gender = keras.layers.Input(shape=(1,), na 阅读全文
posted @ 2022-01-08 16:05 今夜无风 阅读(820) 评论(0) 推荐(0) 编辑
摘要:这个模块提供了堆队列算法的实现,也称为优先队列算法。 堆是一个二叉树,它的每个父节点的值都只会小于或等于所有孩子节点(的值)。 它使用了数组来实现:从零开始计数,对于所有的 k ,都有 heap[k] <= heap[2*k+1] 和 heap[k] <= heap[2*k+2]。 为了便于比较,不 阅读全文
posted @ 2021-12-29 21:50 今夜无风 阅读(128) 评论(0) 推荐(0) 编辑
摘要:参考源:https://www.6aiq.com/article/1605651191093 阅读全文
posted @ 2021-12-28 18:25 今夜无风 阅读(117) 评论(0) 推荐(0) 编辑
摘要:来源:https://cloud.tencent.com/developer/news/688362 阅读全文
posted @ 2021-12-28 11:12 今夜无风 阅读(39) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2021-12-22 21:30 今夜无风 阅读(124) 评论(0) 推荐(0) 编辑
摘要:query意图搜索模块-意图解析1.对比通用搜索,boss求职搜索是结构化召回2.ner是指导召回关键信号在实际场景下,doc端的数据会包含很多结构化的字段,不同字段之间的语义差距会非常大,如果我们进行全字段检索,经常会出现一些语义漂移问题。比如,搜"销售专员",可能会找到"临时工",因为它的字段里 阅读全文
posted @ 2021-12-16 14:55 今夜无风 阅读(273) 评论(0) 推荐(0) 编辑
摘要:作者:暴躁乐谷链接:https://zhuanlan.zhihu.com/p/426478129 见过身边的阿里P8,记录一下我的观察,这里仅说技术线的P8,有同学有想问的直接留言: (由于过于真实而脱敏,手动降温)薪资水平上,现在字节挖阿里P8的报价已经能谈到xxx万税前现金年薪 + xxx万期权 阅读全文
posted @ 2021-11-01 21:57 今夜无风 阅读(873) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 ··· 12 下一页
点击右上角即可分享
微信分享提示