打赏
摘要: Hadoop2.x新特性 集群间数据拷贝 采用distcp命令实现两个Hadoop集群之间的递归数据复制 小文件存档 回收站 Hadoop3.x新特性 多NN的HA架构:多个NameNode高可用 纠删码:能够在不到50%的数据冗余情况下提供和3副本相同的容错能力。 阅读全文
posted @ 2022-02-16 21:29 不像话 阅读(40) 评论(0) 推荐(0) 编辑
摘要: MapReduce程序效率的瓶颈在于两点: 1.计算机性能 CPU、内存、磁盘健康、网络。 2.I/O操作优化 ①数据倾斜 ②Map和Reduce数设置不合理 ③Map允许时间太长,导致Reduce等待太久 ④小文件过多 ⑤大量的不可切片的超大压缩文件 ⑥Spill次数过多 ⑦Merge次数过多 从 阅读全文
posted @ 2022-02-16 21:16 不像话 阅读(578) 评论(0) 推荐(0) 编辑