摘要:
二、通过DataFrame实战电影点评系统 DataFrameAPI是从Spark 1.3开始就有的,它是一种以RDD为基础的分布式无类型数据集,它的出现大幅度降低了普通Spark用户的学习门槛。 DataFrame类似于传统数据库中的二维表格。DataFrame与RDD的主要区别在于,前者带有sc 阅读全文
摘要:
一、通过RDD实战电影点评系统 日常的数据来源有很多渠道,如网络爬虫、网页埋点、系统日志等。下面的案例中使用的是用户观看电影和点评电影的行为数据,数据来源于网络上的公开数据,共有3个数据文件:uers.dat、ratings.dat和movies.dat。 其中,uers.dat的格式如下: Use 阅读全文