1.大数据概述

1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系，以图呈现并加以文字描述。

生态系统是一个由许多组件组成的生态链，只有持续开发，Hadoop生态系统才能不断成熟，现在有多个子项目，核心HDFS和MapReduce，以及Hadoop生态系统、zoopker、hbae、hive、pig、mahout、sqoop等等，包括flame和ambari等功能组件。这些组件涵盖了当前行业中已处理的所有场景。

2.对比Hadoop与Spark的优缺点。

答：hadoop:两步计算，磁盘存储

spark：多步计算，内存存储

Spark是MapReduce的替代品，HDFS和Hive兼容性可以整合到Hadoop生态系统来弥补MapReduce的缺点。

3.如何实现Hadoop与Spark的统一部署？

Hadoop、MapReduce、HBase、Storm和Spark都可以通过资源管理框架线进行运行。因此，它们可以均匀地在线上展开。

他们在YARN上带来的好处：

按需计算资源；

无负荷应用程序映射，高集群利用；

为了避免整个集群的数据转移，共享基础存储。

posted on 2022-02-23 13:45 树亭阅读(51) 评论(0) 收藏举报

刷新页面返回顶部

刘淑婷

1.大数据概述

导航

公告