随笔分类 - Collaborative Filtering Recommendation
摘要:首先每行减去每列的均值,然后svd分解,得到USV,然后US代表用户矩阵u,SV代表项目矩阵v,那么预测评分为用户均值加上uv。 降维方法扩展性好,不过降维导致信息损失,而且与数据及相关,高维情况下效果难保证。
阅读全文
摘要:SiGIR 2014在推荐系统方面收录了三篇很有价值的论文,提出了新的算法框架。在此介绍第一种算法框架(来自论文:Explicit Factor Models for Explainable Recommendation based on Phrase-level Sentiment Analysi
阅读全文
摘要:一、RS介绍 1.显示评分:直接从用户来 隐式评分:从用户活动推测得到的 2.预测是偏好的估计,是预测缺失值,推荐是从其他用户推荐项目,是推荐感兴趣的项目。 3.协同表示利用其它用户的数据 二、欢迎来到本课程 1.TFIDF:overlap 重叠 2.taxonomy:分类研究 3.roadmap:
阅读全文
摘要:第一次接触是在朴素贝叶斯分类里,是为了防止中间的概率为0,那么最终的概率就为0,分子加1,分母加k。 我想的是改进杰卡德系数,改进的初衷来源于这样一个想法,想用杰卡德系数来衡量项目属性相似性,不过假设有200个属性,如果a和b共同有2个,而且只有两个,c、d共同有20个而且只有20个,那么他们的杰卡
阅读全文
摘要:Steffen Rendle于2010年提出Factorization Machines(下面简称FM),并发布开源工具libFM。 一、与其他模型的对比 与SVM相比,FM对特征之间的依赖关系用factorized parameters来表示。对于输入数据是非常稀疏(比如自动推荐系统),FM搞的定
阅读全文
摘要:trust-aware :如何从隐式信任中导出显示信任。链接预测就是搞这一方面的么? 和类似谱聚类的拉普拉斯矩阵结合在一起,没怎么看。
阅读全文
摘要:一、SGD的一个例子说明 下图是我目前得到的一个评分文件,3列的含义分别是UID:User ID,IID:Item ID,score:用户评分.可以看到一共有3个用户,4个物品. 他们可以构成一个3 * 4的评分矩阵矩阵.我现在取k=2,要把它们分解成为一个32的P矩阵和一个24的Q矩阵. 首先初始
阅读全文
摘要:来自于:Joseph A. Konstan & John Riedl 推荐系统还有另外两大特点,也对你最终看到的推荐结果有着显著的影响:第一,在弄清楚你和其他购物者的相似度有多高之前,推荐系统必须先弄明白你真正喜欢什么;第二,推荐系统依照一组商业规则运行,以确保推荐结果既让你觉得有用,也使商家有利可
阅读全文
摘要:寒神解释:某些用户的倾向性和品味没有一致性,比较散。因此在协同过滤这种算法里,没办法和某个group有很高的相似/一致度,推荐会失效。 我理解是寻找邻居时候计算得到的相似度和其他用户相似度都非常小,或者说都低于阈值,这样由于没有邻居,那么就不是CF了。
阅读全文
摘要:ALS是alternating least squares的缩写 , 意为交替最小二乘法;而ALS-WR是alternating-least-squares with weighted-λ -regularization的缩写,意为加权正则化交替最小二乘法。该方法常用于基于矩阵分解的推荐系统中。例如
阅读全文
摘要:用户-项目评分矩阵可以用来建立一个二分图(Bipartite Graph),图中节点分别表示用户和项目,边的权重为用户对项目的评分。可以分析二分图的结构,进而得出对用户的项目推荐。 用户和项目是推荐系统的两个最重要的基本组成部分,可以设用户集为U,项目集为I。 下面依托上表 2.1 所示的用户...
阅读全文
摘要:对于一个用户来说,他们可能有不同的兴趣。就以作者举的豆瓣书单的例子来说,用户A会关注数学,历史,计算机方面的书,用户B喜欢机器学习,编程语言,离散数学方面的书, 用户C喜欢大师Knuth, Jiawei Han等人的著作。那我们在推荐的时候,肯定是向用户推荐他感兴趣的类别下的图书。那么前提是我们...
阅读全文
摘要:这里我想给大家介绍另外一种推荐系统,这种算法叫做潜在因子(Latent Factor)算法。这种算法是在NetFlix(没错,就是用大数据捧火《纸牌屋》的那家公司)的推荐算法竞赛中获奖的算法,最早被应用于电影推荐中。这种算法在实际应用中比现在排名第一的@邰原朗所介绍的算法误差(RMSE)会小不少...
阅读全文
摘要:对于在线商店,主要关心两方面:1. 提升转化率(将不消费的用户转变为消费用户);2. 提升消费额(已经花钱的人,花更多的强)。 对比了6种方法:1. 协同过滤;2. slope one;3. 基于内容的推荐;4. 混合推荐;5. top rating(按照评分排序);6. 按照销量排序。
阅读全文
摘要:第一部分是学习ID3时候积累的。一.以前写的基础知识 1.信息:是用来消除不确定性的度量,信息量的大小,由所消除的不确定性的大小来计量(香农)。 2.由于不确定性是由随机性引起的,所以用概率来描述和计量;熵entropy:源于热力学,是分子混乱程度的度量。 3.X(离散型随机变量)的熵H(...
阅读全文