推荐系统第6周--- SVD和基于标签的推荐系统
“隐语义”的真正背景
LSA(latent semantic analysis)潜在语义分析,也被称为LSI(latent semantic index),是Scott Deerwester, Susan T. Dumais等人在1990年提出来的一种新的索引和检索方法。该方法和传统向量空间模型(vector space model)一样使用向量来表示词(terms)和文档(documents),并通过向量间的关系(如夹角)来判断词及文档间的关系;而丌同的是,LSA将词和文档映射到潜在语义空间,从而去除了原始向量空间中的一些“噪音”,提高了信息检索的精确度。
http://blog.csdn.net/wangran51/article/details/7408406
场景
利用SVD求解LSA
分析文档集合,建立Term-Document矩阵。
对Term-Document矩阵进行奇异值分解。
对SVD分解后的矩阵进行降维,也就是奇异值分解一节所提到的低阶近似。
使用降维后的矩阵构建潜在语义空间,或重建Term-Document矩阵
使用SVD解决LFM
简单模型
问题
倾向于给热门标签对应的热门物品很大的权重,这样会降低推荐结果的新颖性(用户早就知道了)
对于新用户或新物品,标签数量很少,影响计算的准确性,需要增加相关标签量
有些标签其实和用户兴趣无关,比如用户只是通过标签宣泄某种情绪,或者作为一种社交上表示亲昵的动作,需要清理这些标签
厚积薄发,行胜于言@飞鸟各投林