吹静静

欢迎QQ交流:592590682

随笔 - 421,  文章 - 68,  评论 - 65,  阅读 - 164万

1.Hive 是什么

是Facebook开源的,用于解决海量的结构化日志统计问题

Hive是构建在Hadoop之上的数据仓库,

HDFS:Hive的业务数据是存放在HDFS上的(元数据存放在关系型数据库,例如:MySQL)

YARN:Hive的作业是提交到YARN上面去运行的

MR    :Hive作业(SQL)是通过Hive的框架翻译成MR作业,MR只是一个计算引擎,现在还支持Tez、Spark引擎

======================================================================================

Hive其实就是一个客户端(提交机器),没有集群概念

任务执行流程:SQL --> Hive --> MR --> YARN

======================================================================================

Hive职责:将SQL翻译成底层对应的执行引擎作业

有统一的元数据(matedata)管理

元数据:描述数据的数据 schema

======================================================================================

架构:SQL on Hadoop

CLI、JDBC:客户端入口,编写sql语句的地方

2.Hive应用场景

批处理/离线处理,延时性很大;

尽量少涉及到update或者delete这种操作,虽然是支持的。

3.Hive vs RDBMS

分布式:都可以部署成分布式场景;

节点数:关系型数据库节点数比较少,Hive节点数不固定;

成本:关系型数据库成本比较高;

数据量:Hive > RDBMS ;

数据修改和删除:关系型数据库支持,Hive 1.4版本之后才支持,但是不建议使用;

事务:都支持,但是Hive不建议,也没有必要使用;

延时性:Hive延时性比较高;

 

posted on   吹静静  阅读(163)  评论(0编辑  收藏  举报
编辑推荐:
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
阅读排行:
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 使用C#创建一个MCP客户端
· ollama系列1:轻松3步本地部署deepseek,普通电脑可用
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· 按钮权限的设计及实现

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示