推荐系统第5周--- 基于内容的推荐,隐语义模型LFM
基于内容的推荐
制定分类/属性的困难
使用专业人员(编辑)对商品进行整理分类,但这样会产生成本和效率瓶颈
受限于编辑的专业水平,编辑的意见未必能代表用户的意见
分类的粒度难于控制
如果商品有多个分类,很难考虑周全
多维度,多规角分类
编辑很难决定商品在类别里的权重
隐语义模型
LFM的前丕今生
隐语义模型的适用性
关于训练集
常见同类问题求解思路
梯度下降法的几何意义
LFM损失函数极值用梯度下降法求解
LFM中的重要参数
模型中隐特征个数
梯度下降法中选取的学习速率
损失凼数中的惩罚项系数lambda
训练集的负样本/正样本比例ratio
Movielens数据集下载
使用movielens数据集验证LFM有效性
正负样本比例参数ratio的影响
几种指标
LFM的优缺点
典型的机器学习算法,有比较好的数学理论基础,看起来更具数学美感
指标一般会稍高于ItemCF和UserCF
训练过程中占用较少的内存
由于需要迭代,计算时间要多于ItemCF或UserCF
不能在线实时计算
难以向用家解释模型的合理性
Netflix大奖赛
Netflix, Inc. (Nasdaq: NFLX) Netflix是一家在线影片租赁提供商。公司能够提供超大数量的DVD,而且能够让顾客快速方便的挑选影片,同时免费递送。
Netflix已经连续五次被评为顾客最满意的网站。可以通过PC、TV及iPad、iPhone收看电影、电规节目,可通过Wii,Xbox360,PS3等设备连接TV。
Netflix大奖赛从2006年10月份开始,Netflix公开了大约1亿个1-5的匿名影片评级,数据集仁包含了影片名称,评价星级和评级日期,没有任何文本评价的内容。
比赛要求参赛者预测Netflix的客户分别喜欢什么影片,要把预测的效率提高10%以上。
http://baike.baidu.com/view/2836949.htm?fr=aladdin#3
对推荐系统算法发展有深远影响,比如对LFM的追捧使其快速进入大众规野,对LFM提出了很多改进方法
改进LFM
项亮书第八章
在预测公式中加入偏置项,以考虑个人因素(比如有些评分者性格比较苛刻),商品本身特质(例如质量)的影响
考虑邻域影响的LFM,更像是ItemCF的变形,或SVD的增强版,故被称为SVD++
将时间变量加进模型(考虑到用户的兴趣会随着时间改变)
模型组合