摘要: 6.2分布式处理一个基于项目的推荐算法对于如此规模的数据,我们希望使用分布式处理的方法。首先,我们会对基于项目的算法的分布式变异版本进行描述。它在某种程度上和以前非分布式的版本很相似。当然它看起来是完全不同的,因为以前的算法未曾被翻译到分布式的世界。接下来我们要用Hadoop来跑一跑。6.2.1构造一个协同矩阵这个算法由一些简单的矩阵操作都成,它易于解释并且容易实现。如果你上次接触矩阵是好几年前了,不要担心,最棘手的操作只有矩阵乘法(如果您连矩阵乘法都不知道,拜托,那还搞啥数据挖掘...)。这里保证没有什么行列式、行分解、特征值等等。回忆一下,基于项目的推荐,我们依赖于ItemSimilari 阅读全文
posted @ 2012-12-16 21:00 花考拉 阅读(1051) 评论(0) 推荐(0) 编辑
摘要: 6分布式推荐计算本章概述:分析维基百科上的一个大数据集利用Hadoop和分布式计算产生推荐结果伪分布式上存在的非分布式推荐本书着眼于持续增长的数据集,从10条到100,000再到1千万再到1.7千万。不过这依然是中等大小的推荐系统所处理的数据。本章依然放手一搏,处理了来自维基百科语料库中的1.3亿条数据,这些数据主要是以文章对文章的连接形式存在的。在这些数据集中,文章既充当了用户,也充当了项目。这也显示了Mahout在特定情形下十分灵活的应用。为满足演示目的,1.3亿的数据还是可管理的。但是对于单机处理推荐过程还是有一些困难的。这就需要使用一种新的推荐算法,通过Mahout基于的Mapredu 阅读全文
posted @ 2012-12-16 20:53 花考拉 阅读(2303) 评论(0) 推荐(1) 编辑