2020 年 4月 16 日随笔档案 - hulifang

2020年4月16日

摘要： 1）聚合原数据（主要操作的是hive数据库中的数据，先通过hive sql将相同key的数据聚合成一条数据，再进行map操作）当没办法聚合成一条数据时：增大key粒度，从而key的数量会减少，但是每个key对应的数据量会增大，key之间的数据量差异可能会减少。 2）过滤导致倾斜的key 3）提高s 阅读全文

posted @ 2020-04-16 16:25 hulifang 阅读(567) 评论(0) 推荐(0) 编辑

广播变量使用注意事项

摘要：变量一旦被定义成广播变量，那么这个变量只能读，不能被修改 RDD是不能被广播出去的，因为RDD是不存储数据的，可以将rdd的结果广播出去广播变量只能在driver端定义，不能在executor端定义在Driver端可以修改广播变量的值，在Executor端无法修改广播变量的值。如果execut 阅读全文

posted @ 2020-04-16 15:40 hulifang 阅读(744) 评论(0) 推荐(0) 编辑

spark调优

摘要： 1】spark常规性能调优（1）提交作业参数合理的设置（2）rdd尽可能的复用（3）rdd持久化（4）并行度调节（5）广播变量（6）kryo序列化（7）调节本地化等待时长（数据本地化思想）spark.locality.wait https://blog.csdn.net/zhouyan 阅读全文

posted @ 2020-04-16 15:05 hulifang 阅读(194) 评论(0) 推荐(0) 编辑

hulifang

公告