hadoop介绍概述

一、大数据
大数据包括巨大规模(Volume)、超高速度(Velocity)、类型可扩展(Variety)的数据,即3V,大数据包括三种类型的数据:
1)结构化数据:关系型数据
2)半结构化数据:XML数据
3)非结构化数据:Word文档、PDF文档、文本、媒体日志
 
二、hadoop
hadoop是大数据的解决方案,是Apache下一个开源子项目,用Java实现的,是一种分布式系统基础架构。
hadoop的核心:
1)海量数据存储(HDFS)
2)海量数据分析(MapReduce)
3)资源管理调度(YARN)
hadoop特点:
1)扩容能力(Scalable):能可靠地(reliably)存储和处理千兆字节(PB)数据。
2)成本低(Economical):可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。
3)高效率(Efficient):通过分发数据,hadoop可以在数据所在的节点上并行地(parallel)处理它们,这使得处理非常的快速。
4)可靠性(Reliable):hadoop能自动地维护数据的多份副本,并且在任务失败后能自动地重新部署(redeploy)计算任务。
 
三、hadoop生态
 
1、HDFS(分布式文件系统)
特点:良好的扩展性,高容错性,适合PB级以上数据存储
应用场景:海量数据可靠存储、数据归档
2、Yarn(资源管理系统)
Yarn是Hadoop2.0新增的系统,负责集群的资源管理和调度,使得多种计算框架可以运行在一个集群中。
3、MapReduce(分布式计算框架)
4、Hive(基于MR的数据仓库)
Hive定义了一种类似SQL查询语言的HiveQL查询语言,除了不支持更新、索引和实物,几乎SQL的其他特征都能支持。
应用场景:日志分析、对维度数据分析、海量结构化数据离线分析
5、Pig(数据仓库)
Pig是构建在Hadoop之上的数据仓库,定义了一种类似于SQL的数据流语言–Pig Latin,Pig Latin可以完成排序、过滤、求和、关联等操作,可以支持自定义函数。
6、Mahout(数据挖掘库)
Mahout是基于Hadoop的机器学习和数据挖掘的分布式计算框架。它实现了三大算法:推荐、聚类、分类。
7、HBase(分布式数据库)
特点:高可靠性、高性能、面列项、良好的扩展性
8、Zookeeper(分布式协作服务)
Zookeeper解决分布式环境下数据管理问题:统一命名、状态同步、集群管理、配置同步
9、Sqoop(数据同步工具)
Sqoop是连接Hadoop与传统数据库之间的桥梁,它支持多种数据库,包括MySQL、DB2等;插拔式,用户可以根据需要支持新的数据库。
10、Flume(日志收集工具)
特点:分布式、高可靠性、高容错性、易于定制与扩展
11、Oozie(作业流调度系统)
 
四、hadoop版本介绍
Hadoop 1.0:第一代Hadoop,由分布式存储系统HDFS和分布式计算框架MapReduce组成,其中,HDFS由一个NameNode和多个DataNode组成,MapReduce由一个JobTracker和多个TaskTracker组成,对应Hadoop版本为Hadoop 1.x和0.21.X,0.22.x。
Hadoop 2.0:第二代Hadoop,为克服Hadoop 1.0中HDFS和MapReduce存在的各种问题而提出的。提出了全新的资源管理框架YARN(Yet Another Resource Negotiator),它将JobTracker中的资源管理和作业控制功能分开,分别由组件ResourceManager和NodeManager实现,其中,ResourceManager负责所有应用程序的资源分配,而NodeManager仅负责管理一个应用程序。

posted on 2018-07-02 18:15  天行者之眼  阅读(1886)  评论(0编辑  收藏  举报

导航