摘要:
1)Distcp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。2)distcp命令是以MR作业(没有R任务)的形式实现的,把文件和目录的列表作为M任务的输入。每一个文件是由一个M任务来拷贝的,distcp尽量把大小之和相同的各个文件导入到同一个M任务中。这样可以每个M任务拷贝的数据量大致相... 阅读全文
摘要:
1.HDFS的Block块概念HDFS默认的Block块大小为128 MB。为何HDFS中的一个块那么大?HDFS的block块比磁盘的块大,目的是为了减小寻址开销。通过让一个块足够大,从磁盘转移数据的时间能够远远大于定位这个块开始端的时间。因此,传送一个由多个块组成的文件的时间就取决于磁盘传输送率... 阅读全文