HIVE

Hive是建立在Hadoop之上的数据仓库基础构架、是为了减少MapReduce编写工作的批处理系统，Hive本身不存储和计算数据，它完全依赖于HDFS和MapReduce。Hive可以理解为一个客户端工具，将我们的sql操作转换为相应的MapReduce jobs，然后在Hadoop上面运行。

简单来说，hive就是在Hadoop上架了一层SQL接口，可以将SQL翻译成MapReduce去Hadoop上执行，这样使得数据开发和分析人员很方便的使用SQL来完成海量数据统计与分析，二不必使用编程语言开发MapReduce那么麻烦。

Hive 具有 SQL 数据库的外表，但应用场景完全不同，Hive 只适合用来做海量离线数据统计分析，也就是数据仓库。

本质是：将HQL转化成MapReduce程序

1、查询语言不同：hive是hql语言，mysql是sql语句；

2、数据存储位置不同：hive是把数据存储在hdfs上，而mysql数据是存储在自己的系统中；

3、数据格式：hive数据格式可以用户自定义，mysql有自己的系统定义格式；

4、数据更新：hive不支持数据更新，只可以读，不可以写，而sql支持数据更新；

5、索引：hive没有索引，因此查询数据的时候是通过mapreduce很暴力的把数据都查询一遍，也造成了hive查询数据速度很慢的原因，而mysql有索引；

6、延迟性：hive延迟性高，原因就是上边一点所说的，而mysql延迟性低；

7、数据规模：hive存储的数据量超级大，而mysql只是存储一些少量的业务数据；

8、底层执行原理：hive底层是用的mapreduce，而mysql是excutor执行器；

————————————————
深入理解Hive的优缺点以及架构原理：https://blog.csdn.net/qq_43771096/article/details/109481655
hive和mysql的区别_hive和mysql的区别是什么：https://blog.csdn.net/weixin_28996083/article/details/113126084
Hadoop是什么，能干什么，怎么使用：https://blog.csdn.net/qq_32649581/article/details/82892861
HIVE sql 语法介绍:https://zhuanlan.zhihu.com/p/162807676

posted @ 2022-05-07 10:21 捷后愚生阅读(602) 评论(0) 编辑收藏举报

刷新页面返回顶部

捷后愚生