hadoop2和hadoop3的比较_hadoop2和3的区别.md
title: hadoop2和hadoop3的比较
date: 2022-03-23 11:47:10
tags: [hadoop, 大数据]
categories: [大数据, 翻译]
本文为翻译版本,请欣赏。
客观性
在这个hadoop教程中,我们将要讨论hadoop2.x和hadoop3.x版本之间的比较,在hadoop 3 版本中加入了哪些新特性,在hadoop 2 版本中的程序是否兼容hadoop 3,hadoop 2和hadoop 3的区别是什么?希望这篇文章能够解答上述问题。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2kSjIGTW-1648108109706)(hadoop2和hadoop3的比较/hadoop-2-and-hadoop-3.png)]
hadoop 2.x和hadoop 3.x的功能比较
这部分内容将让你知道22个hadoop2和hadoop3最大的区别,让我们来一个个讨论吧。
1. 证书
- Hadoop 2.x - Apache 2.0,Open Source
- Hadoop 3.x - Apache 2.0,Open Source
2. Java的最小支持版本
- Hadoop 2.x - Java 7
- Hadoop 3.x - Java 8
3. 容错性
- Hadoop 2.x - 通过版本复制提高容错性
- Hadoop 3.x - 通过擦除编码技术实现容错性,这个特性我会再写一篇技术文章分析它怎么实现,以及有哪些优势
4. 数据负载均衡
- Hadoop 2.x - 对于数据,采用hdfs均衡器做负载均衡
- Hadoop 3.x - 对于数据,采用数据内节点均衡器做负载均衡,通过HDFS磁盘均衡器CLI调用
5. 存储方案
- Hadoop 2.x - 3倍副本存储方案
- Hadoop 3.x - 在HDFS上支持擦除编码技术(Erasure Coding,简称EC),解决副本复制和副本存储带来的空间和资源的消耗,以EC代替副本,提供和副本存储相同的容错能力,并且存储开销不大于单副本开销的50%。
6. 存储开销
- Hadoop 2.x - 2倍额外的存储空间开销
- Hadoop 3.x - 0.5倍额外的存储空间开销
7. 存储开销实例
- Hadoop 2.x - 如果有6个block块,那么基于副本方案,将会有18个块空间被使用
- Hadoop 3.x - 如果有6个block块,那么基于EC技术方案,将会有9个块空间被使用,6个数据块和3个奇偶校验块
8. YARN时间线服务
- Hadoop 2.x - 使用老的时间线服务,有性能扩展问题
- Hadoop 3.x - 升级时间线服务v2,提高了稳定性和扩展性
9. 默认的端口区间
- Hadoop 2.x - 在hadoop2.x中,一些默认端口是linux的临时端口范围,当服务启动时,可能无法绑定造成启动失败
- Hadoop 3.x - 3.x中,这些端口从临时端口范围中移出来了
10. 工具
- Hadoop 2.x - 使用Hive Pig Tez Hama Giraph和其他hadoop工具
- Hadoop 3.x - Hive Pig Tez Hama Giraph和其他hadoop工具都可以使用
11. 兼容的文件系统
- Hadoop 2.x - HDFS,FTP文件系统(将所有数据存储在远端FTP服务器上),亚马逊S3,微软Azure WASB文件系统
- Hadoop 3.x - 以上及微软Azure数据湖文件系统
12. 数据节点资源
- Hadoop 2.x - DataNode节点资源并非专用与MapReduce任务,也可以将其用于其他应用程序
- Hadoop 3.x - DataNode节点资源也可以使用到其他应用程序
13. MR API兼容性
- Hadoop 2.x - Hadoop 1.x应用程序可以兼容2.x
- Hadoop 3.x - Hadoop 1.x应用程序可以兼容到3.x中
14. 是否支持windows
- Hadoop 2.x - 支持
- Hadoop 3.x - 支持
15. 插槽、容器
- Hadoop 2.x - Hadoop 1任务运行在slot的概念中,hadoop 2任务运行在容器container概念中
- Hadoop 3.x - Hadoop 3任务运行在容器概念中
16. 单点故障
- Hadoop 2.x - 当namenode下线时,standby namenode自动上线提供服务,支持namednode单点故障恢复
- Hadoop 3.x - 支持namednode单点故障恢复
17. HDFS联盟
- Hadoop 2.x - Hadoop 1中,仅一个NameNode管理多个namespace命名空间,Hadoop 2中,多个NameNode管理多个命名空间
- Hadoop 3.x - Hadoop 3中,多个NameNode管理多个命名空间
18. 扩展性
- Hadoop 2.x - 在Hadoop 2中,单个集群可以扩展到10000个节点
- Hadoop 3.x - 扩展性更好,单个集群可以扩展到大于10000个节点
19. 更快地访问数据
- Hadoop 2.x - 由于DataNode有缓存机制,我们可以快速访问到数据
- Hadoop 3.x - DataNode也有缓存机制
20. HDFS快照
- Hadoop 2.x - Hadoop 2添加了快照的支持,当用户错误时提供了数据的灾难恢复和保护机制
- Hadoop 3.x - 也提供了快照支持
21. 平台
- Hadoop 2.x - 可以作为一个平台,运行事件处理、流计算、实时计算等不同类型数据分析
- Hadoop 3.x - 也可以作为一个平台,在YARN上运行上述处理任务
22. 集群资源管理
- Hadoop 2.x - 使用YARN作为集群资源管理,提高扩展性、高可用、多租户
- Hadoop 3.x - 使用YARN进行资源管理
总结
综上所述,我们讨论了Hadoop 2.x和hadoop 3.x的比较,现在我们可以根据自己的情况做出选择,到底是2.x好还是3.x好。
如果你喜欢这篇文章,欢迎讨论,或者发现了2.x和3.x的另外一些区别,欢迎在下发进行评论。
可以看看其他内容
How do Apache Hadoop works?
Top 100 Hadoop Interview Questions and Answers
原文链接:https://data-flair.training/blogs/hadoop-2-x-vs-hadoop-3-x-comparison/
Keep reading, Keep writing, Keep coding.
欢迎关注我的微信公众号,比较喜欢分享知识,也喜欢宠物,所以做了这2个公众号:
欢迎交流,这是我的微信:
一起学习,一起进步。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 【杭电多校比赛记录】2025“钉耙编程”中国大学生算法设计春季联赛(1)