【大数据之数据仓库】HAWQ versus GreenPlum

谈到GreenPlum，肯定会有同事说HAWQ！是的，在本系列第一篇选型流水记里，也有提到。因为对HAWQ接触有限，没有深入具体了解，所以很多信息都是来自于博文，人云亦云，我把看过的资料简要整理，希望对感兴趣的同事有一些帮助^_^

HAWQ的身世：https://www.pivotalguru.com/?p=1176，目前已经开源：http://hawq.incubator.apache.org/；
HAWQ和GreenPlum的比较：https://www.pivotalguru.com/?p=719，可以简要归纳为：GreenPlum是存储和计算合体的，标准的RDBMS系统；而HAWQ是存储与计算分离的，它的存储放在HDFS上，它的计算你可以理解成是被阉割了存储模块的“GreenPlum”，当然，它对Hadoop生态圈的结合度更高，支持对接各种组件：Hive/Hbase/avro等等。这里补充一点：存储和计算分离有啥好处？或者解决了什么问题。大数据领域，影响数据分析的瓶颈就两块：一块是数据扫描（磁盘IO），另一块是数据计算（CPU+MEM）。想象一下，如果我们发现读数据非常耗时（磁盘IO瓶颈），那么可以增加磁盘通过增加IO带宽来解决问题，而如果发现计算耗时特别长，比如CPU一直100%或者MEM已经耗尽，那么可以增加计算资源（比如添加无穷无尽的云主机）来解决。反过来，如果存储和计算合体，那么意味着资源的有效利用率会很低，所以分离是趋势。
我们怎么来定位HAWQ和GreenPlum或者怎么来选择使用呢？答案是手拉手一起使用：https://www.pivotalguru.com/?p=642请注意博文底下的一幅图；另外，在http://dbaplus.cn/news-21-341-1.html一文中也有提到使用MPP+HDFS的组合架构，来构建基础数据仓库，满足不同业务需求；
HAWQ当前发布版本暂不支持数据更新和删除操作，不过3.0.0.0版本将会支持：https://issues.apache.org/jira/browse/HAWQ-304
HAWQ性能指标怎么样？这里有篇Pivotal自测的博文https://content.pivotal.io/blog/pivotal-hawq-benchmark-demonstrates-up-to-21x-faster-performance-on-hadoop-queries-than-sql-like-solutions，号称压倒impala，不过针对本篇博文的题目，我支持GreenPlum！
有公司基于HAWQ提供商业服务：http://www.hashdata.cn；也有公司基于GreenPlum提供商业服务：http://vitessedata.com/deepgreen-db

大家如果还有其他想要了解的，记得留言哦，回头抽空补上:)

看这里：

《【大数据之数据仓库】选型流水记》

本文来自网易云社区，经作者何李夫授权发布。

原文地址：【大数据之数据仓库】HAWQ versus GreenPlum

更多网易研发、产品、运营经验分享请访问网易云社区。

posted @ 2018-07-10 15:52 网易智企·数帆阅读(1422) 评论(0) 收藏举报

刷新页面返回顶部

网易数帆

【大数据之数据仓库】HAWQ versus GreenPlum

公告