2020 年 4月 7 日随笔档案 - 再见傅里叶

2020年4月7日

hive中order by ，sort by ，distribute by 和 cluster by

摘要：总说：笼统地看，这四个在hive中都有排序和聚集的作用，然而，它们在执行时所启动的MR却各不相同。细讲：order by： order by会对所给的全部数据进行全局排序，并且只会“叫醒”一个reducer干活。它就像一个糊涂蛋一样，不管来多少数据，都只启动一个reducer来处理。因此，数据量小阅读全文

posted @ 2020-04-07 13:48 再见傅里叶阅读(582) 评论(0) 推荐(0) 编辑

spark广播变量与累加器

摘要：理论知识介绍:(个人理解使用广播变量是优化项之一) https://blog.csdn.net/Android_xue/article/details/79780463/ 一、为什么要使用共享变量 Spark中因为算子中的真正逻辑是发送到Executor中去运行的，所以当Executor中需要引用外阅读全文

posted @ 2020-04-07 09:12 再见傅里叶阅读(171) 评论(0) 推荐(0) 编辑

再见傅里叶

公告