摘要: 1)聚合原数据(主要操作的是hive数据库中的数据,先通过hive sql将相同key的数据聚合成一条数据,再进行map操作) 当没办法聚合成一条数据时:增大key粒度,从而key的数量会减少,但是每个key对应的数据量会增大,key之间的数据量差异可能会减少。 2)过滤导致倾斜的key 3)提高s 阅读全文
posted @ 2020-04-16 16:25 hulifang 阅读(567) 评论(0) 推荐(0) 编辑
摘要: 变量一旦被定义成广播变量,那么这个变量只能读,不能被修改 RDD是不能被广播出去的,因为RDD是不存储数据的,可以将rdd的结果广播出去 广播变量只能在driver端定义,不能在executor端定义 在Driver端可以修改广播变量的值,在Executor端无法修改广播变量的值。 如果execut 阅读全文
posted @ 2020-04-16 15:40 hulifang 阅读(744) 评论(0) 推荐(0) 编辑
摘要: 1】spark常规性能调优 (1)提交作业参数合理的设置 (2)rdd尽可能的复用 (3)rdd持久化 (4)并行度调节 (5)广播变量 (6)kryo序列化 (7)调节本地化等待时长(数据本地化思想)spark.locality.wait https://blog.csdn.net/zhouyan 阅读全文
posted @ 2020-04-16 15:05 hulifang 阅读(194) 评论(0) 推荐(0) 编辑