第二次作业

1.了解对比Hadoop不同版本的特性，可以用图表的形式呈现。

国内流传和使用的Hadoop的主要版本主要有以下几种：

　　1、Apache hadoop 的2.0版本，它的模块主要有以下几个：

　　（1）hadoop通用模块，支持其他hadoop模块的通用工具集；

　　（2）Hadoop分布式文件系统，支持对应数据高吞吐量访问的分布式文件系统；

　　（3）用于作业调度和集群资源管理的Hadoop YANRN框架；

　　（4）Hadoop MapReduce，基于YARN的大数据并行处理系统。

　　2、Cloudera hadoop：Cloudera版本层次更加清晰，且它提供了适用于各种操作系统的Hadoop安装包，可直接使用apt-get或者yum命令进行安装，更加省事。

　　3、Hortonworks：Hortonworks 的主打产品是Hortonworks Data Platform (HDP)，也同样是100%开源的产品，HDP除了常见的项目外还包含了Ambari，一款开源的安装和管理系　统。HCatalog，一个元数据管理系统，HCatalog现已集成到Facebook 开源的Hive中。Hortonworks的Stinger开创性地极大地优化了Hive项目。Hortonworks为入门提供了一个非常好的，易于使用的沙盒。Hortonworks开发了很多增强特性并提交至核心主干，这使得Apache Hadoop能够在包括Windows Server和Windows Azure在内的Microsoft Windows平台上本地运行。

2.Hadoop生态的组成、每个组件的作用、组件之间的相互关系，以图例加文字描述呈现。

HDFS（hadoop分布式文件系统）	是hadoop体系中数据存储管理的基础。他是一个高度容错的系统，能检测和应对硬件故障。
mapreduce（分布式计算框架）	mapreduce是一种计算模型，用于处理大数据量的计算。其中map对应数据集上的独立元素进行指定的操作，生成键-值对形式中间，reduce则对中间结果中相同的键的所有值进行规约，以得到最终结果。
hive（基于hadoop的数据仓库）	由Facebook开源，最初用于解决海量结构化的日志数据统计问题。
hbase（分布式列存数据库）	hbase是一个针对结构化数据的可伸缩，高可靠，高性能，分布式和面向列的动态模式数据库。和传统关系型数据库不同，hbase采用了bigtable的数据模型。
zookeeper（分布式协作服务）	解决分布式环境下的数据管理问题：统一命名，状态同步，集群管理，配置同步等。
sqoop（数据同步工具）	sqoop是sql-to-hadoop的缩写，主要用于传统数据库和hadoop之间传输数据。数据的导入和导出本质上是mapreduce程序，充分利用了MR的并行化和容错性
pig（基于hadoop的数据流系统）	定义了一种数据流语言-pig latin，将脚本转换为mapreduce任务在hadoop上执行。通常用于离线分析。
mahout（数据挖掘算法库）	mahout的主要目标是创建一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建只能应用程序。
flume（日志收集工具）	cloudera开源的日志收集系统，具有分布式，高可靠，高容错，易于定制和扩展的特点。他将数据从产生，传输，处理并写入目标的路径的过程抽象为数据流，在具体的数据流中，数据源支持在flume中定制数据发送方，从而支持收集各种不同协议数据。

3.官网学习Hadoop的安装与使用，用文档的方式列出步骤与注意事项。
http://www.apache.org /

→Projects

→Projects List

→Hadoop

参考文献：https://www.jianshu.com/p/d2f8c7153239

4,.评估华为hadoop发行版本的特点与可用性

华为的FusionInsight Hadoop版本基于Apache Hadoop，构建NameNode、Jobtrack而、HiveServer的HA功能，进程故障后系统自动Failover，无需人工干预，这个也是对Hadoop的小修补，远不如MapR解决的彻底。华为在Hadoop社区中的Contributor和Committer也是国内最多的，算是国内技术实力较强的公司。

posted @ 2020-09-19 19:04 只吃外卖阅读(103) 评论(0) 收藏举报

刷新页面返回顶部

只吃外卖

第二次作业

公告