作业二
1、了解对比Hadoop不同版本的特性,可以用图表的形式呈现
答:
发行版本 |
功能特点 |
DKhadoop发行版 |
DKhadoop发行版:有效的集成了整个HADOOP生态系统的全部组件,并深度优化,重新编译为一个完整的更高性能的大数据通用计算平台,实现了各部件的有机协调。因此DKH相比开源的大数据平台,在计算性能上有了高达5倍(最大)的性能提升。DKhadoop将复杂的大数据集群配置简化至三种节点(主节点、管理节点、计算节点),极大的简化了集群的管理运维,增强了集群的高可用性、高可维护性、高稳定性。 |
cloudera发行版 |
Cloudera发行版:CDH是Cloudera的hadoop发行版,完全开源,比Apache hadoop在兼容性,安全性,稳定性上有增强。 |
hortonworks发行版 |
€Hortonworks发行版:Hortonworks 的主打产品是Hortonworks Data Platform (HDP),也同样是100%开源的产品,其版本特点:HDP包括稳定版本的Apache Hadoop的所有关键组件;安装方便,HDP包括一个现代化的,直观的用户界面的安装和配置工具 |
MAPR发行版 |
MAPR发行版:mapR有免费和商业两个版本,免费版本在功能上有所减少 |
华为hadoop发行版 |
华为hadoop发行版:华为的hadoop版本基于自研的Hadoop HA平台,构建NameNode、JobTracker、HiveServer的HA功能,进程故障后系统自动Failover,无需人工干预,这个也是对hadoop的小修补,远不如mapR解决的彻底 |
问题二:Hadoop生态的组成、每个组件的作用、组件之间的相互关系,以图例加文字描述呈现
答:
组件 | 功能 |
HDFS | 分布式文件系统 |
MapReduce | 分布式并行编程模型 |
YARN | 资源管理和调度器 |
Tez | 运行在YARN之上的下一代Hadoop查询处理框架 |
Hive | Hadoop上的数据仓库 |
HBase | Hadoop上的非关系型的分布式数据库 |
Pig | 一个基于Hadoop的大规模数据分析平台,提供类SQL的查询语言PigLatin |
Sqoop | 用于在Hadoop与传统数据库之间进行数据传递 |
Oozie |
Hadoop上的工作流管理系统 |
Zookeeper | 提供分布式协调一致性服务 |
Storm | 流计算框架 |
Flume | 一个高可用的,高可靠性的,分布式的海量日志采集,聚合和传输的系统 |
Ambari | Hadoop快速部署工具,支持Apache Hadoop集群的供应,管理和监控 |
Kafka | 一种高吞吐量的分布式发布订阅消息系统,可以处理消费者规模的网站中的所有动作流数据类似于Hadoop MapReduce的通用并行框架 |
问题三:官网学习Hadoop的安装与使用,用文档的方式列出步骤与注意事项。
答:
Hadoop的安装步骤:
1、安装hadoop的环境,必须在你的系统中有java的环境,甚至需要关闭防火墙操作。
2、配置java环境,和必须要设置SSH
3、 修改配置文件修改/usr/local/hadoop/etc/hadoop/
文件夹下的core-site.xml
和hdfs-site.xml
文件
4、输入相关命令
问题四:评估华为Hadoop发行版本的特点与可用性。
答:华为的hadoop版本基于自研的Hadoop HA平台,构建NameNode、JobTracker、HiveServer的HA功能,进程故障后系统自动Failover,无需人工干预,这个也是对hadoop的小修补,远不如mapR解决的彻底。