摘要: Spark编程进阶 两种类型的共享变量: 累加器 :用来对信息进行聚合。 广播变量 :用来高效分发较大的对象。 数据介绍: 使用业余无线电操作者的呼叫日志作为输入,构建出一个完整的示例应用。这些日志中至少包含联系过的站点的呼号。呼号是由国家分配的,每个国家都有自己的呼号号段。有一些呼叫日志也包含操作 阅读全文
posted @ 2016-12-01 14:06 传奇魔法师 阅读(201) 评论(0) 推荐(0) 编辑
摘要: Loding and Saving Your Data 主要介绍Spark对于下面3类数据源的处理: 1. File formats and filesystems 2. Structured data sources through Spark SQL 3. Databases and key/v 阅读全文
posted @ 2016-12-01 10:33 传奇魔法师 阅读(322) 评论(1) 推荐(0) 编辑