大数据技术名词

大数据的知识结构：

一、大数据的相关名词：

Hadoop：是一个分布式的大数据框架，包含有三个核心组件：HDFS，YARN，MapReduce。

HBase：是一个NoSql数据库，列式存储。存储并处理大型数据，可以对大型数据提供随机、实时的读写访问。

Hive：

　　是一个数据仓库工具，运行在Hadoop的数据仓库环境之上，是一种HQL语言，支持标准SQL。

　　提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行，非常适合数据仓库的统计分析。

Spark：是一个基于内存的计算框架，性能比Hadoop强，支持Sql，对数据进行流式处理。

Kafka：提供了分布式消息队列，流式处理。

Storm：做流式处理

Zookeeper：是一个分布式应用程序协调服务；其特点是：分布式协调，集群管理。

Sqoop：在Hadoop(Hive)与传统的数据库(mysql、oracle等)间进行数据的传递。

　　　　可以将一个关系型数据库（MySql ,Oracle等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

Impala：接近实时的处理引擎，之后也加入了Hadoop生态圈。

Mahout：是机器学习和数据挖掘的分布式框架。

二：其他

Hadoop和Spark都是大数据框架，Spark只对数据进行计算，本身不对数据进行存储。

Hadoop支持多种计算框架：MapReduce、Spark

流处理：实时处理数据　　　　　　//在线的数据

分布式：多个电脑处理同一数据 //离线的数据

posted @ 2017-04-28 15:54 裸奔的太阳阅读(391) 评论(0) 收藏举报

刷新页面返回顶部

裸奔的太阳