hadoop全家桶

hadoop

hdfs :hadoop分布式文件系统

mapReduce : 计算框架

yarn 资源调度

hive

OLAP、数仓、SQL

数据仓库，提供hive-sql 管理-查询数据

本身不存储和计算数据，默认使用hadoop.mapReduce 作为计算框架，hdfs作为文件系统

hbase

OLTP、NOSQL

键值数据库，基于列式存储

使用自身的计算引擎，hdfs作为文件系统

hive和hbase区别

Hive本身不存储和计算数据，它完全依赖于HDFS和MapReduce，Hive中的表纯逻辑。

HBase是物理表，不是逻辑表，提供一个超大的内存hash表，搜索引擎通过它来存储索引，方便查询操作。

spark

内存执行mapReduce任务

场景：数据清洗和流式计算（对标产品flink,storm)

Spark Streaming 支持从多种数据源获取数据，包括 Kafka、Flume、Twitter、ZeroMQ、Kinesis 以及 TCP Sockets。从数据源获取数据之后，可以使用诸如 map、reduce、join 和 window 等高级函数进行复杂算法的处理，最后还可以将处理结果存储到文件系统、数据库和现场仪表盘中。

hive on spark

hive使用spark作为计算引擎

posted @ 2022-06-12 18:42 赵钱富贵阅读(328) 评论(0) 编辑收藏举报

刷新页面返回顶部

赵钱富贵

hadoop全家桶

hadoop全家桶

hadoop

hive

hbase

spark

公告