摘要: 数据倾斜含义: 1.1、是指shuffle过程中,必须将各个节点上相同key拉取到某个节点上的一个task来进行处理,此时如果某个key对应的数据特别大的话,就会发生数据倾斜。 1.2、数据倾斜举例: 二、数据倾斜现象 2.1、同一个stage中相同task绝大部分task执行时间快,少数几个执行时 阅读全文
posted @ 2020-04-29 09:24 一颗小白菜灬 阅读(769) 评论(0) 推荐(0) 编辑
摘要: API def join[W](other: RDD[(K, W)]): RDD[(K, (V, W))] 返回值是RDD,RDD中的类型是一个二元组(a),a第一个元素是KEY类型的值(join的key), a第二个元素又是二元组(b), b的第一个元素是来自调用join函数的RDD的value, 阅读全文
posted @ 2020-04-29 09:13 一颗小白菜灬 阅读(347) 评论(0) 推荐(0) 编辑
摘要: JOIN在Spark Core中的使用1. inner joininner join,只返回左右都匹配上的 // 启动spark-shell,定义两个rdd,做join操作[hadoop@hadoop01 ~]$ spark-shell --master local[2]scala> val a = 阅读全文
posted @ 2020-04-29 09:04 一颗小白菜灬 阅读(1907) 评论(0) 推荐(0) 编辑