关注我,每天一篇大数据开发面试文章,挺进大厂!2021年全套大数据面试题开始更新!

文章分类 -  Hadoop

摘要:切片机制 一个超大文件在HDFS上存储时,是以多个Block存储在不同的节点上,比如一个512M的文件,HDFS默认一个Block为128M,那么1G的文件分成4个Block存储在集群中4个节点上。 Hadoop在map阶段处理上述512M的大文件时分成几个MapTask进行处理呢?Hadoop的M 阅读全文
posted @ 2021-12-10 02:16 王知无 阅读(131) 评论(0) 推荐(0) 编辑
摘要:这篇文章来自一个读者在面试过程中的一个问题,Hadoop在shuffle过程中使用了一个数据结构-环形缓冲区。 环形队列是在实际编程极为有用的数据结构,它是一个首尾相连的FIFO的数据结构,采用数组的线性空间,数据组织简单。能很快知道队列是否满为空。能以很快速度的来存取数据。 因为有简单高效的原因, 阅读全文
posted @ 2021-12-08 20:16 王知无 阅读(148) 评论(0) 推荐(0) 编辑
摘要:你需要先看这个系列: Hadoop重点难点:HDFS读写/NN/2NN/DN HDFS – 可靠性 HDFS 的可靠性主要有一下几点: 冗余副本策略 机架策略 心跳机制 安全模式 效验和 回收站 元数据保护 快照机制 1.冗余副本策略 可以在 hdfs-site.xml 中设置复制因子指定副本数量 阅读全文
posted @ 2021-12-08 19:39 王知无 阅读(103) 评论(0) 推荐(0) 编辑
摘要:《大数据之Hadoop企业级生产调优手册(上)》 5 HDFS—存储优化 5.1 纠删码 5.2 异构存储(冷热数据分离) 6 HDFS—故障排除 6.1 集群安全模式 6.2 慢磁盘监控 6.3 小文件归档 7 MapReduce 生产经验 8 Hadoop 综合调优 8.1 Hadoop 小文件 阅读全文
posted @ 2021-12-08 01:21 王知无 阅读(123) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示