刘淑婷

1.大数据概述

1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。

生态系统是一个由许多组件组成的生态链,只有持续开发,Hadoop生态系统才能不断成熟,现在有多个子项目,核心HDFS和MapReduce,以及Hadoop生态系统、zoopker、hbae、hive、pig、mahout、sqoop等等,包括flame和ambari等功能组件。这些组件涵盖了当前行业中已处理的所有场景。

 

2.对比Hadoop与Spark的优缺点。

答:hadoop:两步计算,磁盘存储

spark:多步计算,内存存储

Spark是MapReduce的替代品,HDFS和Hive兼容性可以整合到Hadoop生态系统来弥补MapReduce的缺点。

 

3.如何实现Hadoop与Spark的统一部署? 

Hadoop、MapReduce、HBase、Storm和Spark都可以通过资源管理框架线进行运行。因此,它们可以均匀地在线上展开。

他们在YARN上带来的好处:

按需计算资源;

无负荷应用程序映射,高集群利用;

为了避免整个集群的数据转移,共享基础存储。

 

posted on 2022-02-23 13:45  树亭  阅读(44)  评论(0编辑  收藏  举报

导航