2020 年 4月 29 日随笔档案 - 一颗小白菜灬

2020年4月29日

摘要：数据倾斜含义： 1.1、是指shuffle过程中，必须将各个节点上相同key拉取到某个节点上的一个task来进行处理，此时如果某个key对应的数据特别大的话，就会发生数据倾斜。 1.2、数据倾斜举例：二、数据倾斜现象 2.1、同一个stage中相同task绝大部分task执行时间快，少数几个执行时阅读全文

posted @ 2020-04-29 09:24 一颗小白菜灬阅读(774) 评论(0) 推荐(0) 编辑

Rdd joinapi 及理解详细释义

摘要： API def join[W](other: RDD[(K, W)]): RDD[(K, (V, W))] 返回值是RDD，RDD中的类型是一个二元组(a)，a第一个元素是KEY类型的值(join的key), a第二个元素又是二元组(b), b的第一个元素是来自调用join函数的RDD的value，阅读全文

posted @ 2020-04-29 09:13 一颗小白菜灬阅读(348) 评论(0) 推荐(0) 编辑

RDD中join 理解

摘要： JOIN在Spark Core中的使用1. inner joininner join，只返回左右都匹配上的 // 启动spark-shell，定义两个rdd，做join操作[hadoop@hadoop01 ~]$ spark-shell --master local[2]scala> val a = 阅读全文

posted @ 2020-04-29 09:04 一颗小白菜灬阅读(1910) 评论(0) 推荐(0) 编辑

一颗小白菜灬

公告