推荐系统介绍
目的(why)
现实生活所面对问题:五花八门、琳琅满目的商品如何选择自己想要的商品?信息爆炸,信息过载,如何快速提取自己需要的信息?推荐系统应运而生。
推荐系统是信息过载所采用的措施,面对海量的数据信息, 从中快速推荐出符合用户特点的物品。解决一些人的“选择 恐惧症”;面向没有明确需求的人。 解决如何从大量信息中找到自己感兴趣的信息。 解决如何让自己生产的信息脱颖而出,受到大众的喜爱。
推荐系统涉及三方: 用户、内容和网站
网站是依托,
给谁推荐? 用户
推荐什么? 内容
想达到的效果:用户能更快更好找到想要的东西
商品内容更快更好推送到用户那里
让用户更快更好的获取到自己需要的内容 让内容更快更好的推送到喜欢 它的用户手中 让网站(平台)更有效的保留 用户资源
推荐系统的应用
其中电子商务:亚马逊,20%左右的收入来自于推荐系统
电影视频:netflix,Netflix大奖赛与推荐系统
个性化音乐:网易音乐、腾讯音乐
社交网络:facebook、twitter、微信、微博(好友推荐)
个性化阅读:今日头条、google新闻、很多新闻网站
个性化广告: google
推荐系统的基本思想
类似于介绍对象:
首先需要了解到用户的所需:介绍对象,然后把对应特征的人或物推荐给他
利用用户和物品的特征信息,给用户推荐那些具有用户喜欢的特征的物品。
利用用户喜欢过的物品,给用户推荐与他喜欢过的物品相似的物品。 利用和用户相似的其他用户,给用户推荐那些和他们兴趣爱好相似的其他用 户喜欢的物品。
总结:
知你所想,精准推送 利用用户和物品的特征信息,给用户推荐那些具有用户喜欢的特征的物品。
物以类聚 利用用户喜欢过的物品,给用户推荐与他喜欢过的物品相似的物品。
人以群分 利用和用户相似的其他用户,给用户推荐那些和他们兴趣爱好相似的其他用户喜 欢的物品。
数据分析
用户:
个人信息
喜好标签:注册时,做一些喜好勾选(感兴趣的标签)
上下文信息:用户浏览器上下文信息(cookie),行为习惯
物品:
内容相关的信息:名称、描述、分类 与用户的特征匹配,就可以推荐,类似的商品
分类标签和关键字:内容标签里提炼的关键词
用户的行为数据:
可以转化为对物品或者信息的偏好,根据应用本身的不同, 可能包括用户对物品的评分,用户查看物品的记录,用户的购买记录等。这 些用户的偏好信息可以分为两类: 显式的用户反馈:这类是用户在网站上自然浏览或者使用网站以外,显式的提供反馈信息,例如用户对物品的评分,或者对物品的评论。
隐式的用户反馈:这类是用户在使用网站是产生的数据,隐式的反应了用户对物 品的喜好,例如用户购买了某物品,用户查看了某物品的信息等等。
推荐系统的数据分析
要推荐物品或内容的元数据,例如关键字,分类标签,基因描述等;
系统用户的基本信息,例如性别,年龄,兴趣标签等 用户的行为数据,可以转化为对物品或者信息的偏好,根据应用本身的不同, 可能包括用户对物品的评分,用户查看物品的记录,用户的购买记录等。
这 些用户的偏好信息可以分为两类:
显式的用户反馈:这类是用户在网站上自然浏览或者使用网站以外,显式的提供 反馈信息,例如用户对物品的评分,或者对物品的评论。
隐式的用户反馈:这类是用户在使用网站是产生的数据,隐式的反应了用户对物 品的喜好,例如用户购买了某物品,用户查看了某物品的信息等等。
推荐系统的分类
根据实时性分类:离线推荐 实时推荐
根据推荐原则分类:基于相似度的推荐 基于知识的推荐
基于模型的推荐:根据推荐是否个性化分类 基于统计的推荐 个性化推荐
根据数据源分类:基于人口统计学的推荐、基于内容的推荐、基于协同过滤的推荐
我们需要实现的都是个性化推荐
推荐算法
基于人口统计学的推荐
基于内容的推荐
基于协同过滤的推荐
混合推荐
基于用户(人口统计学)的推荐算法
用户a与用户c很相似:年龄、性别,用户A喜欢物品啊,依据人以群分,可以把物品A推荐给用户C,基于用户的基本信息
基于内容的推荐算法
电影C与电影A的内容有很多相似度:都是爱情、动作片,依据相似度原则,电影C推荐给喜欢电影A的用户
基于协同过滤的推荐
基于行为数据:用户和物品相关联的数据
协同过滤(Collaborative Filtering,CF) 基于近邻的协同过滤
基于用户(User-CF)
基于物品(Item-CF)
基于模型的协同过滤
奇异值分解(SVD)
潜在语义分析(LSA)
支撑向量机(SVM)
下图为用户为商品评分的矩阵,是一个稀疏矩阵
协同过滤(CF)推荐方法
基于内容(Content based,CB)主要利用的是用户评价过的物品的内容特征,而CF方法哈可以利用其它用户评分过的物品内容 CF可以结局CB的一些局限: (1)物品内容不完全或者难以获得时,依然可以通过其他用户的反馈给出推荐 (2)CF基于用户之间对物品的评价质量,避免了CB仅依赖内容可能造成的对物品质量判断的干扰 (3)CF推荐不受内容限制,只要其他类似用户给出了对不同物品的兴趣,CF就可以给用户推荐出内容差异很大的物品(但有某种内在联系)
分为两类:基于近邻和基于模型
基于用户的协同过滤
用户a和用户c相似,用户a喜欢物品A、C,用户C喜欢物品A,C,D,因此依据用户相似性原则,把物品D推荐给用户a
基于物品的协同过滤
用户a喜欢物品A、C,用户陈喜欢物品A,物品C与物品A相似,依据物品相似性推荐原则,物品C推荐给用户c
混合推荐
实际网站的推荐系统往往都不是单纯只采用了某一种推荐的机制和策略,往往是将多个方法混合在一起,从而达到更好的推荐效果。比较流行的组合方法有: 加权混合 用线性公式(linear formula)将几种不同的推荐按照一定权重组合起来,具体权重的值需要 在测试数据集上反复实验,从而达到最好的推荐效果 切换混合 切换的混合方式,就是允许在不同的情况(数据量,系统运行状况,用户和物品的数目等)下, 选择最为合适的推荐机制计算推荐 分区混合 采用多种推荐机制,并将不同的推荐结果分不同的区显示给用户 分层混合 采用多种推荐机制,并将一个推荐机制的结果作为另一个的输入,从而综合各个推荐机制的优缺点,得到更加准确的推荐
推荐系统的评测
让用户更快更好的获取到自己需要的内容 让内容更快更好的推送到喜欢它的用户手中 让网站(平台)更有效的保留 用户资源
好的推荐系统——让三方共赢
推荐系统实验方法
用户调查 用户调查需要有一些真实用户,让他们在需要测试的推荐系统上完成一些任务;我们需要记录 他们的行为,并让他们回答一些问题;最后进行分析
在线实验 AB测试