1.大数据概述
1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。
2.对比Hadoop与Spark的优缺点。
答:第一,中间数据放在spark内存中,迭代运算效率高,MapReduce中的计算必须登录并存储在硬盘上,这将不可避免地影响整体速度。Spark程序支持分布式并行DAG图计算,减少了迭代过程中的数据量,提高了数据处理效率。(下载延迟)
第二,Spark的容错性高。Spark引入了一个抽象的RDD数据集,即在只读组之间弹性分布的数据集。如果数据集的一部分丢失,可以通过“血统”来重建。
第三,Spark 会比mapreduce更通用。mapreduce 只提供了 Map 和 Reduce 两种数据集操作类型,Spark 提供的则有很多,其中便包括了mapreduce的这两种。
第四,Hadoop中对于数据的计算,一个Job只有一个Map和Reduce阶段,对于复杂的计算,需要使用多次MR,这样涉及到落盘和磁盘IO,效率不高;而在Spark中,一个Job可以包含多个RDD的转换算子,在调度时可以生成多个Stage,实现更复杂的功能;
第五,Hadoop适用于静态数据处理,迭代流数据处理不好;Spark提高了流式和迭代数据处理性能
3.如何实现Hadoop与Spark的统一部署?
答:在YARN之上进行统一部署
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律