摘要: 本文由 网易云 发布。 上一篇文章介绍了如何搭建Hadoop伪分布式集群,本篇将向大家介绍下Hadoop分布式集群的搭建。内容浅显,但能够为新手们提供 一个参考,让像我一样的小白们对Hadoop的环境能够有一定的了解。 本文由 网易云 发布。 上一篇文章介绍了如何搭建Hadoop伪分布式集群,本篇将 阅读全文
posted @ 2018-04-24 13:05 网易数帆 阅读(581) 评论(0) 推荐(0) 编辑
摘要: 本文由 网易云 发布。 本文具体讨论了Join基础算法的一种优化方案 – Runtime Filter,在本文最后还引申地聊了聊谓词 下推技术。同时,在本文文章开头,笔者引出了两个问题,SQL执行引擎如何知晓参与Join的两波数据集大小?衡量两波数据集 大小的是物理大小还是纪录多少抑或两者都有?这关 阅读全文
posted @ 2018-04-24 11:14 网易数帆 阅读(780) 评论(0) 推荐(2) 编辑
摘要: 本文由 网易云 发布。 在之前的文章中简要介绍了Join在大数据领域中的使用背景以及常用的几种算法-broadcast hash join 、shuffle hash join以及 sort merge join等,对每一种算法的核心应用场景也做了相关介绍,这里再重点说明一番:大表与小表进行join 阅读全文
posted @ 2018-04-24 10:32 网易数帆 阅读(450) 评论(0) 推荐(0) 编辑