08 2021 档案

摘要:在 MapReduce 框架中, Shuffle 阶段是连接 Map 与 Reduce 之间的桥梁, Map 阶段通过 Shuffle 过程将数据输出到 Reduce 阶段中。由于 Shuffle 涉及磁盘的读写和网络 I/O,因此 Shuffle 性能的高低直接影响整个程序的性能。 Spark 也 阅读全文
posted @ 2021-08-16 15:26 五分钟学大数据 阅读(4681) 评论(0) 推荐(1) 编辑
摘要:Hive 数据倾斜怎么发现,怎么定位,怎么解决 多数介绍数据倾斜的文章都是以大篇幅的理论为主,并没有给出具体的数据倾斜案例。当工作中遇到了倾斜问题,这些理论很难直接应用,导致我们面对倾斜时还是不知所措。 今天我们不扯大篇理论,直接以例子来实践,排查是否出现了数据倾斜,具体是哪段代码导致的倾斜,怎么解 阅读全文
posted @ 2021-08-05 21:28 五分钟学大数据 阅读(3168) 评论(0) 推荐(0) 编辑
摘要:关于 sql 语句的执行顺序网上有很多资料,但是大多都没进行验证,并且很多都有点小错误,尤其是对于 select 和 group by 执行的先后顺序,有说 select 先执行,有说 group by 先执行,到底它俩谁先执行呢? 今天我们通过 explain 来验证下 sql 的执行顺序。 在验 阅读全文
posted @ 2021-08-02 09:55 五分钟学大数据 阅读(2297) 评论(0) 推荐(2) 编辑

点击右上角即可分享
微信分享提示