大数据技术名词
大数据的知识结构:
一、大数据的相关名词:
Hadoop:是一个分布式的大数据框架,包含有三个核心组件:HDFS,YARN,MapReduce。
HBase:是一个NoSql数据库,列式存储。存储并处理大型数据,可以对大型数据提供随机、实时的读写访问。
Hive:
是一个数据仓库工具,运行在Hadoop的数据仓库环境之上,是一种HQL语言,支持标准SQL。
提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行,非常适合数据仓库的统计分析。
Spark:是一个基于内存的计算框架,性能比Hadoop强,支持Sql,对数据进行流式处理。
Kafka:提供了分布式消息队列,流式处理。
Storm:做流式处理
Zookeeper:是一个分布式应用程序协调服务; 其特点是:分布式协调,集群管理。
Sqoop:在Hadoop(Hive)与传统的数据库(mysql、oracle等)间进行数据的传递。
可以将一个关系型数据库(MySql ,Oracle等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
Impala:接近实时的处理引擎,之后也加入了Hadoop生态圈。
Mahout:是机器学习和数据挖掘的分布式框架。
二:其他
Hadoop和Spark都是大数据框架,Spark只对数据进行计算,本身不对数据进行存储。
Hadoop支持多种计算框架:MapReduce、Spark
流处理:实时处理数据 //在线的数据
分布式:多个电脑处理同一数据 //离线的数据