2016年7月5日

摘要: When Scala constructs a closure, it determines which outer variables the closure will use and stores references to them in the closure object. This al 阅读全文
posted @ 2016-07-05 15:45 杰克再造 阅读(155) 评论(0) 推荐(0) 编辑
摘要: testFile可以接受一个HDFS文件,可以是一个本地系统的文件,或者是任意hadoop支持的文件系统的URI,返回一个RDD[String] 1.调用hadoopFile,生成一个HadoopRDD 2.将HadoopRdd的key省去,只留value,生成一个mapPartitionRDD 一 阅读全文
posted @ 2016-07-05 15:44 杰克再造 阅读(174) 评论(0) 推荐(0) 编辑
摘要: 这个类是用于记录HDFS的Block对应的所有datanode的信息 源码如下: 不得不说在DFSInputStream.java中,叫blockSeekTo的方法 通过输入一个文件的偏移量,返回在哪个datanode上去取是最好的 内部实现有2步: 1. 首先找到根据这个偏移量,对应的block有 阅读全文
posted @ 2016-07-05 14:25 杰克再造 阅读(246) 评论(0) 推荐(0) 编辑
摘要: 分布式数据并行环境下,保持数据的本地性是非常重要的内容,事关分布式系统性能高下。 概念: block : HDFS的物理空间概念,固定大小,最小是64M,可以是128,256 。。也就是说单个文件大于block的大小,肯定会被切分,被切分的数目大概是:比如文件是250M,block是64M,就会被分 阅读全文
posted @ 2016-07-05 11:46 杰克再造 阅读(2763) 评论(1) 推荐(0) 编辑
摘要: ZooKeeper。它是Apache Hadoop的一个子项目,它主要用来解决分布式集群中应用系统的一致性问题 这个一致性可以是数据,可以是程序,可以是配置文件 ZooKeeper数据节点,就是znode Zookeeper 并不是用来专门存储数据的,它的作用主要是用来维护和监控你存储的数据的状态变 阅读全文
posted @ 2016-07-05 10:48 杰克再造 阅读(303) 评论(0) 推荐(0) 编辑

导航