摘要: 数据准备: agent.log:时间戳,省份,城市,用户,广告,中间字段使用空格分隔。 数据截图: 需求描述: 统计出每一个省份每个广告被点击数量排行的 Top3 需求分析: 1、拆分数据,将每条数据转化为 > ((省份,广告),1) 2、对相同的key进行累加求和 3、重新拆分数据,将数据由((省 阅读全文
posted @ 2021-01-28 13:47 littlemelon 阅读(213) 评论(0) 推荐(0) 编辑
摘要: 引言 本文主要讲一些双value类型的函数,主要用于两个RDD的操作 正文 intersection 函数签名:def intersection(other: RDD[T]): RDD[T] 函数说明:对源 RDD 和参数 RDD 求交集后返回一个新的 RDD 解释:必须要求两个RDD的数据类型相同 阅读全文
posted @ 2021-01-28 13:38 littlemelon 阅读(171) 评论(0) 推荐(0) 编辑