2016年7月7日

摘要: 一套开源软件项目,可以提供私有云的全套解决方案的接口 OPenStack主要有以下5个部分构成 Nova 负责计算 swift 负责存储 glance 负责镜像 keystone 负责认证 Horizon 负责UI Nova通过web service API对外提供处理接口, Nova负责管理整个云 阅读全文
posted @ 2016-07-07 14:53 杰克再造 阅读(142) 评论(0) 推荐(0) 编辑

2016年7月6日

摘要: docker是lxc的增强版,不是替代版,其底层也是用lxc实现的 1. 多版本混合部署 一台服务器上部署多个应用或者一个应用的多个版本非常常见。 文件路径,配置信息,端口冲突不可避免 docker的每个容器有自己的文件系统,并通过端口映射解决端口冲突的问题 2.升级回滚 升级通常还有依赖项的版本变 阅读全文
posted @ 2016-07-06 16:57 杰克再造 阅读(235) 评论(0) 推荐(0) 编辑
摘要: 调度模型的好坏,是由底层的抽象模型所决定的,spark的底层抽象是RDD spark调度模型系统,分为底层调度模型(TASKscheduler)和高层调度模型(DAGscheduler) 调度过程 1. application driver发出请求,这个application首先创建sparkcon 阅读全文
posted @ 2016-07-06 10:33 杰克再造 阅读(273) 评论(0) 推荐(0) 编辑

2016年7月5日

摘要: When Scala constructs a closure, it determines which outer variables the closure will use and stores references to them in the closure object. This al 阅读全文
posted @ 2016-07-05 15:45 杰克再造 阅读(156) 评论(0) 推荐(0) 编辑
摘要: testFile可以接受一个HDFS文件,可以是一个本地系统的文件,或者是任意hadoop支持的文件系统的URI,返回一个RDD[String] 1.调用hadoopFile,生成一个HadoopRDD 2.将HadoopRdd的key省去,只留value,生成一个mapPartitionRDD 一 阅读全文
posted @ 2016-07-05 15:44 杰克再造 阅读(174) 评论(0) 推荐(0) 编辑
摘要: 这个类是用于记录HDFS的Block对应的所有datanode的信息 源码如下: 不得不说在DFSInputStream.java中,叫blockSeekTo的方法 通过输入一个文件的偏移量,返回在哪个datanode上去取是最好的 内部实现有2步: 1. 首先找到根据这个偏移量,对应的block有 阅读全文
posted @ 2016-07-05 14:25 杰克再造 阅读(248) 评论(0) 推荐(0) 编辑
摘要: 分布式数据并行环境下,保持数据的本地性是非常重要的内容,事关分布式系统性能高下。 概念: block : HDFS的物理空间概念,固定大小,最小是64M,可以是128,256 。。也就是说单个文件大于block的大小,肯定会被切分,被切分的数目大概是:比如文件是250M,block是64M,就会被分 阅读全文
posted @ 2016-07-05 11:46 杰克再造 阅读(2773) 评论(1) 推荐(0) 编辑
摘要: ZooKeeper。它是Apache Hadoop的一个子项目,它主要用来解决分布式集群中应用系统的一致性问题 这个一致性可以是数据,可以是程序,可以是配置文件 ZooKeeper数据节点,就是znode Zookeeper 并不是用来专门存储数据的,它的作用主要是用来维护和监控你存储的数据的状态变 阅读全文
posted @ 2016-07-05 10:48 杰克再造 阅读(304) 评论(0) 推荐(0) 编辑

导航