作业2

一、了解对比Hadoop不同版本的特性,可以用图表的形式呈现。

答:Apache Hadoop版本分为两代,第一代Hadoop称为Hadoop1.0,第二代Hadoop称为Hadoop2.0。第一代Hadoop包含0.20.x、0.21.x、0.22.x三大版本,其中,0.20.x最后演化成1.0.x,变成了稳定版。而0.21.x和0.22.x则增加了HDFS HA等重要的新特性。第二代Hadoop包含0.23.x和2.x两大版本。他们完全不同于Hadoop1.0,是一套全新的架构,均包含HDFS Federation和YARN两个系统。

Hadoop 2.4.0版本于2014年4月7日发布,相比于hadoop 2.3.0,有了很多重大改进,主要包括:

1.HDFS支持ACL
2. HDFS在线升级更加容易
3.HDFS支持https访问方式
4.YARN ResourceManager容错
5.增加了Application Timeline Server
6.Capacity scheduler支持资源抢占

二、Hadoop生态的组成、每个组件的作用、组件之间的相互关系,以图例加文字描述呈现。

答:Hadoop的核心组件是HDFS、MapReduce。随着处理任务不同,各种组件相继出现,丰富Hadoop生态圈,目前生态圈结构大致如图所示:

 

 

 

 

 

三、官网学习Hadoop的安装与使用,用文档的方式列出步骤与注意事项。

答:

下载Hadoop安装包————www.hadoop.org

 

解压Hadoop安装包

 

首先先要配置好java环境变量 Java_HOME要确认好jdk的路径。

 

配置好Java环境变量后开始配置hadoop核心配置文件

1.打开 hadoop-2.7.3/etc/hadoop/core-site.xml,添加一下内容到末尾。

<configuration>

        <property>

    <name>fs.defaultFS</name>

    <value>hdfs://localhost:9000</value>  

        </property>

</configuration>

2.打开 hadoop-2.7.3/etc/hadoop/mapred-site.xml,添加一下内容到末尾。

<configuration>  

        <property>      

        <name>mapreduce.framework.name</name>      

        <value>yarn</value>  

        </property>

</configuration>

3.打开 hadoop-2.7.3/etc/hadoop/hdfs-site.xml,添加一下内容到末尾。

先创建两个文件夹
E:/hadoop-2.7.3/namenode
E:/hadoop-2.7.3/datanode

<configuration>

        <property>      

        <name>dfs.replication</name>      

        <value>1</value>  

        </property>  

        <property>      

        <name>dfs.namenode.name.dir</name>      

        <value>/E:/hadoop-2.7.3/namenode</value>//路径为你的存放路径  

        </property>  

        <property>      

        <name>dfs.datanode.data.dir</name>    

        <value>/E:/hadoop-2.7.3/datanode</value>//路径为你的存放路径  

        </property>

</configuration>

4.打开 hadoop-2.7.3/etc/hadoop/yarn-site.xml,添加一下内容到末尾。

<configuration>  

        <property>      

        <name>yarn.nodemanager.aux-services</name>      

        <value>mapreduce_shuffle</value>  

        </property>  

        <property>      

        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>      

        <value>org.apache.hadoop.mapred.ShuffleHandler</value>  

        </property>

</configuration>

最后WIN+R 输入cmd Hadoop-2.7.3\bin下,输入hdfs namenode -format执行到格式化之后,namenode文件里会自动生成一个current文件,则格式化成功。

然后转到Hadoop-2.7.3\sbin下,输入start-all.cmd,启动hadoop服务,等待他启动完成。
完成之后,输入jps可以查看运行的所有服务 (前提是java路径设置正确)

 

 

这样hadoop(windows环境下)就启动完成了

 

 

四、评估华为hadoop发行版本的特点与可用性。

华为hadoop发行版:华为的hadoop版本基于自研的Hadoop HA平台,构建NameNode、JobTracker、HiveServer的HA功能,进程故障后系统自动Failover,无需人工干预,这个也是对hadoop的小修补,远不如mapR解决的彻底。

 

 



         答:华为的hadoop版本基于自研的Hadoop HA平台,构建NameNode、JobTracker、HiveServer的HA功能,进程故障后系统自动Failover,无需人工干预,这个也是对hadoop的小修补,远不如mapR解决的彻底。

         华为fusionInsight有以下特点:

安全

  • 架构安全

FusionInsight HD基于开源组件实现功能增强,保持100%的开放性,不使用私有架构和组件。

  • 认证安全
    • 基于用户和角色的认证统一体系,遵从帐户/角色RBAC(Role-Based Access Control)模型,实现通过角色进行权限管理,对用户进行批量授权管理。
    • 支持安全协议Kerberos,FusionInsight HD使用LDAP作为帐户管理系统,并通过Kerberos对帐户信息进行安全认证。
    • 提供单点登录,统一了Manager系统用户和组件用户的管理及认证。
    • 对登录FusionInsight Manager的用户进行审计。
  • 文件系统层加密

Hive、HBase可以对表、字段加密,集群内部用户信息禁止明文存储。

    • 加密灵活:加密算法插件化,可进行扩充,亦可自行开发。非敏感数据可不加密,不影响性能(加密约有5%性能开销)。
    • 业务透明:上层业务只需指定敏感数据(Hive表级、HBase列族级加密),加解密过程业务完全不感知。

可靠

  • 所有管理节点组件均实现HA(High Availability)

业界第一个实现所有组件HA的产品,确保数据的可靠性、一致性。NameNode、Hive Server、HMaster、Resources Manager等管理节点均实现HA。

  • 集群异地灾备

业界第一个支持超过1000公里异地容灾的大数据平台,为日志详单类存储提供了迄今为止可靠性最佳实践。

  • 数据备份恢复

表级别全量备份、增量备份,数据恢复(对本地存储的业务数据进行完整性校验,在发现数据遭破坏或丢失时进行自恢复)。

易用

  • 统一运维管理

Manager作为FusionInsight HD的运维管理系统,提供界面化的统一安装、告警、监控和集群管理。

  • 易集成

提供北向接口,实现与企业现有网管系统集成;当前支持Syslog接口,接口消息可通过配置适配现有系统;整个集群采用统一的集中管理,未来北向接口可根据需求灵活扩展。

  • 易开发

提供自动化的二次开发助手和开发样例,帮助软件开发人员快速上手。

 

         对于新手学习还是可以快速上手的一个hadoop平台。

posted @ 2020-09-18 11:08  碎觉觉  阅读(127)  评论(0编辑  收藏  举报