hadoop全家桶

hadoop全家桶

hadoop

hdfs :hadoop分布式文件系统

mapReduce : 计算框架

yarn 资源调度

hive

OLAP、数仓、SQL

数据仓库,提供hive-sql 管理-查询数据

本身不存储和计算数据,默认使用hadoop.mapReduce 作为计算框架,hdfs作为文件系统

hbase

OLTP、NOSQL

键值数据库,基于列式存储

使用自身的计算引擎,hdfs作为文件系统

hive和hbase区别

Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce,Hive中的表纯逻辑。

HBase是物理表,不是逻辑表,提供一个超大的内存hash表,搜索引擎通过它来存储索引,方便查询操作

spark

内存执行mapReduce任务

场景 :数据清洗和流式计算(对标产品flink,storm)

Spark Streaming 支持从多种数据源获取数据,包括 Kafka、Flume、Twitter、ZeroMQ、Kinesis 以及 TCP Sockets。从数据源获取数据之后,可以使用诸如 map、reduce、join 和 window 等高级函数进行复杂算法的处理,最后还可以将处理结果存储到文件系统、数据库和现场仪表盘中。

hive on spark

hive使用spark作为计算引擎

posted @ 2022-06-12 18:42  赵钱富贵  阅读(305)  评论(0编辑  收藏  举报