摘要:
经过2节对MovieLens数据集的学习,想必读者对MovieLens数据集认识的不错了;同时也顺带回顾了些Spark编程技巧,Python数据分析技巧。
而本节将是让人兴奋的一节,它将实现一个基于Spark的推荐系统引擎。 阅读全文
摘要:
在对数据进行了初步探索后,想必读者对MovieLens数据集有了感性认识。而在数据挖掘/推荐引擎运行前,往往需要对数据预处理。预处理的重要性不言而喻,甚至比数据挖掘/推荐系统本身还重要。
然而完整的数据预处理工作会涉及到:缺失值,异常值,口径统一,去重,特征提取等等等等,可以单写一本书了,本文无法一一介绍。
本文仅就特征提取这一话题进行粗略讨论并展示。 阅读全文
摘要:
MovieLens数据集包含多个用户对多部电影的评级数据,也包括电影元数据信息和用户属性信息。
这个数据集经常用来做推荐系统,机器学习算法的测试数据集。尤其在推荐系统领域,很多著名论文都是基于这个数据集的。(PS: 它是某次具有历史意义的推荐系统竞赛所用的数据集)。 阅读全文
摘要:
对于Hadoop集群来说,节点损坏是非常常见的现象。
而Hadoop一个很大的特点就是某个节点的损坏,不会影响到整个分布式任务的运行。
下面就来分析Hadoop平台是如何做到的。 阅读全文