穆晨 - 博客园

2017年5月20日

摘要：经过2节对MovieLens数据集的学习，想必读者对MovieLens数据集认识的不错了；同时也顺带回顾了些Spark编程技巧，Python数据分析技巧。而本节将是让人兴奋的一节，它将实现一个基于Spark的推荐系统引擎。阅读全文

posted @ 2017-05-20 16:40 穆晨阅读(21758) 评论(0) 推荐(5)

摘要：在对数据进行了初步探索后，想必读者对MovieLens数据集有了感性认识。而在数据挖掘/推荐引擎运行前，往往需要对数据预处理。预处理的重要性不言而喻，甚至比数据挖掘/推荐系统本身还重要。然而完整的数据预处理工作会涉及到：缺失值，异常值，口径统一，去重，特征提取等等等等，可以单写一本书了，本文无法一一介绍。本文仅就特征提取这一话题进行粗略讨论并展示。阅读全文

posted @ 2017-05-20 16:39 穆晨阅读(5912) 评论(0) 推荐(0)

第一篇：使用Spark探索经典数据集MovieLens

摘要： MovieLens数据集包含多个用户对多部电影的评级数据，也包括电影元数据信息和用户属性信息。这个数据集经常用来做推荐系统，机器学习算法的测试数据集。尤其在推荐系统领域，很多著名论文都是基于这个数据集的。(PS: 它是某次具有历史意义的推荐系统竞赛所用的数据集)。阅读全文

posted @ 2017-05-20 12:29 穆晨阅读(14788) 评论(2) 推荐(4)

第十一篇：Map/Reduce 工作机制分析 - 错误处理机制

摘要：对于Hadoop集群来说，节点损坏是非常常见的现象。而Hadoop一个很大的特点就是某个节点的损坏，不会影响到整个分布式任务的运行。下面就来分析Hadoop平台是如何做到的。阅读全文

posted @ 2017-05-20 11:12 穆晨阅读(858) 评论(0) 推荐(0)

穆晨

聚是一团火，散是满天星。

公告