Hadoop演进与Hadoop生态
1.了解对比Hadoop不同版本的特性,可以用图表的形式呈现
目前,hadoop社区有几个不同的分支版本,各个版本之前又相互联系。以下是几个主要版本的一些介绍。
0.20.2是一个stable的版本,他又几个子版本,0.20.203 具有security特性,但是不具有append和raid功能。 0.20-append具有append功能没有security。0.20.205是0.20-append和0.20.203merge,具有append和security,没有raid,symlink等。1.0及之后的版本都是从0.20.205开始的。是稳定版本。
0.21 具有append,raid和symlink功能,激进的特性,没有security特性,不保证稳定。
0.22具有append,raid,security和symlink功能,但是mapreduce没有security,并且没有加入performance得patch。
0.23具有mr2
2.Hadoop生态的组成、每个组件的作用、组件之间的相互关系,以图例加文字描述呈现
HDFS(hadoop分布式文件系统)mapreduce(分布式计算框架) hive(基于hadoop的数据仓库)hbase(分布式列存数据库)zookeeper(分布式协作服务)sqoop(数据同步工具)
pig(基于hadoop的数据流系统)mahout(数据挖掘算法库)flume(日志收集工具)资源管理器的简单介绍(YARN和mesos)
3.官网学习Hadoop的安装与使用,用文档的方式列出步骤与注意事项。
安装hadoop的环境,必须在你的系统中有java的环境
必须安装ssh,有的系统默认就安装,如果没有安装需要手动安装。
可以用yum install -y ssh 或者 rpm -ivh ssh的rpm包进行安装
(1)网上下载jdk
(2)下载并安装hadoop
(3)执行相关的命令(常用命令。相关命令)
必须安装ssh,有的系统默认就安装,如果没有安装需要手动安装。
可以用yum install -y ssh 或者 rpm -ivh ssh的rpm包进行安装
4.评估华为hadoop发行版本的特点与可用性
三个版本特点:
DKhadoop发行版:有效的集成了整个HADOOP生态系统的全部组件,并深度优化,重新编译为一个完整的更高性能的大数据通用计算平台,实现了各部件的有机协调。因此DKH相比开源的大数据平台,在计算性能上有了高达5倍(最大)的性能提升。DKhadoop将复杂的大数据集群配置简化至三种节点(主节点、管理节点、计算节点),极大的简化了集群的管理运维,增强了集群的高可用性、高可维护性、高稳定性。
Cloudera发行版:CDH是Cloudera的hadoop发行版,完全开源,比Apache hadoop在兼容性,安全性,稳定性上有增强
€Hortonworks发行版:Hortonworks 的主打产品是Hortonworks Data Platform (HDP),也同样是100%开源的产品,其版本特点:HDP包括稳定版本的Apache Hadoop的所有关键组件;安装方便,HDP包括一个现代化的,直观的用户界面的安装和配置工具。
可用性:HDP与成熟的高可用性解决方案的无缝集成。