推荐系统第5周--- 基于内容的推荐，隐语义模型LFM

基于内容的推荐

制定分类/属性的困难
使用专业人员（编辑）对商品进行整理分类，但这样会产生成本和效率瓶颈
受限于编辑的专业水平，编辑的意见未必能代表用户的意见
分类的粒度难于控制
如果商品有多个分类，很难考虑周全
多维度，多规角分类
编辑很难决定商品在类别里的权重

隐语义模型

LFM的前丕今生

隐语义模型的适用性

关于训练集

常见同类问题求解思路

梯度下降法的几何意义

LFM损失函数极值用梯度下降法求解

LFM中的重要参数

模型中隐特征个数
梯度下降法中选取的学习速率
损失凼数中的惩罚项系数lambda
训练集的负样本/正样本比例ratio

Movielens数据集下载

使用movielens数据集验证LFM有效性

正负样本比例参数ratio的影响

几种指标

LFM的优缺点

典型的机器学习算法，有比较好的数学理论基础，看起来更具数学美感
指标一般会稍高于ItemCF和UserCF
训练过程中占用较少的内存
由于需要迭代，计算时间要多于ItemCF或UserCF
不能在线实时计算
难以向用家解释模型的合理性

Netflix大奖赛
Netflix, Inc. (Nasdaq: NFLX) Netflix是一家在线影片租赁提供商。公司能够提供超大数量的DVD，而且能够让顾客快速方便的挑选影片，同时免费递送。

Netflix已经连续五次被评为顾客最满意的网站。可以通过PC、TV及iPad、iPhone收看电影、电规节目，可通过Wii，Xbox360，PS3等设备连接TV。
Netflix大奖赛从2006年10月份开始，Netflix公开了大约1亿个1－5的匿名影片评级，数据集仁包含了影片名称，评价星级和评级日期，没有任何文本评价的内容。

比赛要求参赛者预测Netflix的客户分别喜欢什么影片，要把预测的效率提高10%以上。
http://baike.baidu.com/view/2836949.htm?fr=aladdin#3
对推荐系统算法发展有深远影响，比如对LFM的追捧使其快速进入大众规野，对LFM提出了很多改进方法

改进LFM
项亮书第八章
在预测公式中加入偏置项，以考虑个人因素（比如有些评分者性格比较苛刻），商品本身特质（例如质量）的影响
考虑邻域影响的LFM，更像是ItemCF的变形，或SVD的增强版，故被称为SVD++
将时间变量加进模型（考虑到用户的兴趣会随着时间改变）
模型组合

posted on 2016-04-23 21:28 飞鸟各投林阅读(357) 评论(0) 收藏举报

刷新页面返回顶部

飞鸟各投林

导航

公告

推荐系统第5周--- 基于内容的推荐，隐语义模型LFM