摘要: Spark的join与mysql的join类似,mysql的join是将表与表之间连接查询,spark中join是将RDD数据集进行连接,Spark主要有join、leftOuterJoin、rightOuterJoin及fullOuterJoin这4种连接 join:相当于mysql的INNER 阅读全文
posted @ 2018-10-06 22:08 HarvardFly 阅读(9715) 评论(0) 推荐(2) 编辑
摘要: groupByKey把相同的key的数据分组到一个集合序列当中: [("hello",1), ("world",1), ("hello",1), ("fly",1), ("hello",1), ("world",1)] --> [("hello",(1,1,1)),("word",(1,1)),(" 阅读全文
posted @ 2018-10-06 17:18 HarvardFly 阅读(2505) 评论(1) 推荐(1) 编辑
摘要: map将函数作用到数据集的每一个元素上,生成一个新的分布式的数据集(RDD)返回 map函数的源码: map将每一条输入执行func操作并对应返回一个对象,形成一个新的rdd,如源码中的rdd.map(lambda x: (x, 1) --> [('a', 1), ('b', 1), ('c', 1 阅读全文
posted @ 2018-10-06 14:39 HarvardFly 阅读(8558) 评论(0) 推荐(0) 编辑