飞鸟各投林

导航

推荐系统第5周--- 基于内容的推荐,隐语义模型LFM

基于内容的推荐

 

 

制定分类/属性的困难
使用专业人员(编辑)对商品进行整理分类,但这样会产生成本和效率瓶颈
受限于编辑的专业水平,编辑的意见未必能代表用户的意见
分类的粒度难于控制
如果商品有多个分类,很难考虑周全
多维度,多规角分类
编辑很难决定商品在类别里的权重

 

隐语义模型

LFM的前丕今生

 

隐语义模型的适用性

关于训练集

 

 

常见同类问题求解思路

梯度下降法的几何意义

LFM损失函数极值用梯度下降法求解

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

LFM中的重要参数

模型中隐特征个数
梯度下降法中选取的学习速率
损失凼数中的惩罚项系数lambda
训练集的负样本/正样本比例ratio

 

Movielens数据集下载

使用movielens数据集验证LFM有效性

正负样本比例参数ratio的影响

几种指标

LFM的优缺点

典型的机器学习算法,有比较好的数学理论基础,看起来更具数学美感
指标一般会稍高于ItemCF和UserCF
训练过程中占用较少的内存
由于需要迭代,计算时间要多于ItemCF或UserCF
不能在线实时计算
难以向用家解释模型的合理性

 

Netflix大奖赛
Netflix, Inc. (Nasdaq: NFLX) Netflix是一家在线影片租赁提供商。公司能够提供超大数量的DVD,而且能够让顾客快速方便的挑选影片,同时免费递送。

Netflix已经连续五次被评为顾客最满意的网站。可以通过PC、TV及iPad、iPhone收看电影、电规节目,可通过Wii,Xbox360,PS3等设备连接TV。
Netflix大奖赛从2006年10月份开始,Netflix公开了大约1亿个1-5的匿名影片评级,数据集仁包含了影片名称,评价星级和评级日期,没有任何文本评价的内容。

比赛要求参赛者预测Netflix的客户分别喜欢什么影片,要把预测的效率提高10%以上。
http://baike.baidu.com/view/2836949.htm?fr=aladdin#3
对推荐系统算法发展有深远影响,比如对LFM的追捧使其快速进入大众规野,对LFM提出了很多改进方法

 

改进LFM
项亮书第八章
在预测公式中加入偏置项,以考虑个人因素(比如有些评分者性格比较苛刻),商品本身特质(例如质量)的影响
考虑邻域影响的LFM,更像是ItemCF的变形,或SVD的增强版,故被称为SVD++
时间变量加进模型(考虑到用户的兴趣会随着时间改变)
模型组合

 

 

 

 

 

 

posted on 2016-04-23 21:28  飞鸟各投林  阅读(334)  评论(0编辑  收藏  举报