摘要:
When Scala constructs a closure, it determines which outer variables the closure will use and stores references to them in the closure object. This al 阅读全文
摘要:
testFile可以接受一个HDFS文件,可以是一个本地系统的文件,或者是任意hadoop支持的文件系统的URI,返回一个RDD[String] 1.调用hadoopFile,生成一个HadoopRDD 2.将HadoopRdd的key省去,只留value,生成一个mapPartitionRDD 一 阅读全文
摘要:
这个类是用于记录HDFS的Block对应的所有datanode的信息 源码如下: 不得不说在DFSInputStream.java中,叫blockSeekTo的方法 通过输入一个文件的偏移量,返回在哪个datanode上去取是最好的 内部实现有2步: 1. 首先找到根据这个偏移量,对应的block有 阅读全文
摘要:
分布式数据并行环境下,保持数据的本地性是非常重要的内容,事关分布式系统性能高下。 概念: block : HDFS的物理空间概念,固定大小,最小是64M,可以是128,256 。。也就是说单个文件大于block的大小,肯定会被切分,被切分的数目大概是:比如文件是250M,block是64M,就会被分 阅读全文