摘要: 总说:笼统地看,这四个在hive中都有排序和聚集的作用,然而,它们在执行时所启动的MR却各不相同。 细讲:order by: order by会对所给的全部数据进行全局排序,并且只会“叫醒”一个reducer干活。它就像一个糊涂蛋一样,不管来多少数据,都只启动一个reducer来处理。因此,数据量小 阅读全文
posted @ 2020-04-07 13:48 再见傅里叶 阅读(582) 评论(0) 推荐(0) 编辑
摘要: 理论知识介绍:(个人理解使用广播变量是优化项之一) https://blog.csdn.net/Android_xue/article/details/79780463/ 一、为什么要使用共享变量 Spark中因为算子中的真正逻辑是发送到Executor中去运行的,所以当Executor中需要引用外 阅读全文
posted @ 2020-04-07 09:12 再见傅里叶 阅读(171) 评论(0) 推荐(0) 编辑