文章分类 - Hadoop
摘要:切片机制 一个超大文件在HDFS上存储时,是以多个Block存储在不同的节点上,比如一个512M的文件,HDFS默认一个Block为128M,那么1G的文件分成4个Block存储在集群中4个节点上。 Hadoop在map阶段处理上述512M的大文件时分成几个MapTask进行处理呢?Hadoop的M
阅读全文
摘要:这篇文章来自一个读者在面试过程中的一个问题,Hadoop在shuffle过程中使用了一个数据结构-环形缓冲区。 环形队列是在实际编程极为有用的数据结构,它是一个首尾相连的FIFO的数据结构,采用数组的线性空间,数据组织简单。能很快知道队列是否满为空。能以很快速度的来存取数据。 因为有简单高效的原因,
阅读全文
摘要:你需要先看这个系列: Hadoop重点难点:HDFS读写/NN/2NN/DN HDFS – 可靠性 HDFS 的可靠性主要有一下几点: 冗余副本策略 机架策略 心跳机制 安全模式 效验和 回收站 元数据保护 快照机制 1.冗余副本策略 可以在 hdfs-site.xml 中设置复制因子指定副本数量
阅读全文
摘要:《大数据之Hadoop企业级生产调优手册(上)》 5 HDFS—存储优化 5.1 纠删码 5.2 异构存储(冷热数据分离) 6 HDFS—故障排除 6.1 集群安全模式 6.2 慢磁盘监控 6.3 小文件归档 7 MapReduce 生产经验 8 Hadoop 综合调优 8.1 Hadoop 小文件
阅读全文