摘要: 日志生成 算出每个用户的上行流量总和 和下行流量的总和 阅读全文
posted @ 2017-11-12 21:28 RZ_Lee 阅读(1081) 评论(0) 推荐(0) 编辑
摘要: 日志类型 计算每个学科最受欢迎的老师 另种角度来实现,过滤多次提交 使用自定义分区器将每个学科的数据shuffle到独自的分区,在分区内进行排序取topN 上面的方式会有多次shuffle,reduceByKey聚合数据的时候shuffle一次,使用自定义分区器重新对数据进行分析又shuffle了一 阅读全文
posted @ 2017-11-12 21:25 RZ_Lee 阅读(822) 评论(0) 推荐(0) 编辑
摘要: Producer SparkStreamingDemo 注意必须设置checkpoint 阅读全文
posted @ 2017-11-12 19:36 RZ_Lee 阅读(778) 评论(0) 推荐(0) 编辑