2017 年 9月 29 日随笔档案 - 0xcafedaddy

2017年9月29日

摘要：适用场景进行join中至少有一个RDD的数据量比较少（比如几百M，或者1-2G) 因为，每个Executor的内存中，都会驻留一份广播变量的全量数据 Broadcast与map进行join代码示例创建RDD 传统的join 使用Broadcast+map的join操作阅读全文

posted @ 2017-09-29 23:30 0xcafedaddy 阅读(2898) 评论(0) 推荐(0) 编辑

Spark map-side-join 关联优化

摘要：在spark中要进行join操作，如果在shuffle的时候进行join效率较低。如果满足所需要join的表中有一张表较小，那么可以考虑在map端进行join操作。转载：http://blog.csdn.net/lsshlsw/article/details/50834858 将多份数据进行关联阅读全文

posted @ 2017-09-29 17:13 0xcafedaddy 阅读(1323) 评论(0) 推荐(0) 编辑

解决spark中遇到的数据倾斜问题

摘要：一. 数据倾斜的现象多数task执行速度较快,少数task执行时间非常长，或者等待很长时间后提示你内存不足，执行失败。二. 数据倾斜的原因常见于各种shuffle操作，例如reduceByKey,groupByKey,join等操作。数据问题 spark使用问题三. 数据倾斜的后果一个理阅读全文

posted @ 2017-09-29 13:16 0xcafedaddy 阅读(2457) 评论(0) 推荐(0) 编辑

0xcafedaddy

公告