摘要: RDD全称叫做弹性分布式数据集(Resilient Distributed Datasets),它是一种分布式的内存抽象,表示一个只读的记录分区的集合,它只能通过其他RDD转换而创建,为此,RDD支持丰富的转换操作(如map, join, filter, groupBy等),通过这种转换操作,新的R 阅读全文
posted @ 2018-01-05 16:06 Earendil 阅读(627) 评论(0) 推荐(0) 编辑
摘要: 基于邻域的算法是推荐系统中最基本的算法,该算法不仅在学术界得到了深入研究,而且在 业界得到了广泛应用。基于邻域的算法分为两大类,一类是基于用户的协同过滤算法,另一类是 基于物品的协同过滤算法。 基于用户的协同过滤算法: 该算法主要分为两个步骤: (1)找到和目标用户兴趣相似的用户的集合 (2)找到集 阅读全文
posted @ 2018-01-05 15:59 Earendil 阅读(2089) 评论(0) 推荐(0) 编辑
摘要: 本文主要是基于《推荐系统实践》这本书的读书笔记,还没有实践这些算法。 LFM算法是属于隐含语义模型的算法,不同于基于邻域的推荐算法。 隐含语义模型有:LFM,LDA,Topic Model 这本书里介绍的LFM算法。书中内容介绍的很详细,不过我也是看了一天才看明白的。 开始一直没想明白,隐类的类别是 阅读全文
posted @ 2018-01-05 10:14 Earendil 阅读(10781) 评论(0) 推荐(1) 编辑