07 2019 档案
摘要:一、背景 推荐系统中,有一个刚需就是去重,去重主要涉及两块: 1)内容源去重,即有些抓取的文章基本是讲的一件事。 2)给用户推荐的内容去重,即不能重复推荐。 对于第一种去重,可以采用Google公布的去重算法Simhash,该算法适合海量数据去重。对于常规的文本相似度计算,需要分词,组合成一个向量,
阅读全文
摘要:一、应用场景 在基于用户兴趣召回物品时,每个用户都有兴趣标签,有时候可能兴趣标签非常多,每一个标签都有计算出来的权重,从高到底进行排序。在进行推荐的时候,我们到底基于哪些兴趣标签进行推荐呢,只选取topN的吗,还是全部?如果只选取topN的,那每次推荐结果都比较相似,而且权重低的兴趣标签似乎得不到推
阅读全文
摘要:排行榜其实就是热门榜,在推荐系统中非常重要,细细嚼来,其中也蕴藏了不少学问。究竟有什么作用呢? 一、排行榜的作用 1)解决新用户的冷启动问题,当新用户来的时候,我们没有他的任何信息,这个时候可以将热点资讯或者物品推荐给他。 2)发现老用户兴趣的方式。老用户兴趣比较明确了,在享受个性化推荐的同时,也可
阅读全文
摘要:如果想理解汤普森采样算法,就必须先熟悉了解贝塔分布。 一、Beta(贝塔)分布 Beta分布是一个定义在[0,1]区间上的连续概率分布族,它有两个正值参数,称为形状参数,一般用α和β表示,Beta分布的概率密度函数形式如下: 这里的Γ表示gamma函数。 Beta分布的均值是: 方差: Beta分布
阅读全文
摘要:一、定义 E&E就是探索(explore)和利用(exploit)。 Exploit:基于已知最好策略,开发利用已知具有较高回报的item(贪婪、短期回报),对于推荐来讲就是用户已经发现的兴趣,继续加以利用推荐。 优点:充分利用高回报item。 缺点:容易陷入局部最优,可能错过潜在最高回报的item
阅读全文
摘要:一、为什么需要推荐系统? 1)信息过载(information overload)问题日益严重 2)人找喜欢的物品、资讯变得越来越困难 3)新的产品想脱颖而出、得到关注,亦不容易 二、推荐系统主要能解决什么问题? 1)人与物的精确匹配,从人找信息,转变为信息找人2)帮助减少马太效应和长尾效应的影响
阅读全文