摘要:
一套开源软件项目,可以提供私有云的全套解决方案的接口 OPenStack主要有以下5个部分构成 Nova 负责计算 swift 负责存储 glance 负责镜像 keystone 负责认证 Horizon 负责UI Nova通过web service API对外提供处理接口, Nova负责管理整个云 阅读全文
摘要:
docker是lxc的增强版,不是替代版,其底层也是用lxc实现的 1. 多版本混合部署 一台服务器上部署多个应用或者一个应用的多个版本非常常见。 文件路径,配置信息,端口冲突不可避免 docker的每个容器有自己的文件系统,并通过端口映射解决端口冲突的问题 2.升级回滚 升级通常还有依赖项的版本变 阅读全文
摘要:
调度模型的好坏,是由底层的抽象模型所决定的,spark的底层抽象是RDD spark调度模型系统,分为底层调度模型(TASKscheduler)和高层调度模型(DAGscheduler) 调度过程 1. application driver发出请求,这个application首先创建sparkcon 阅读全文
摘要:
When Scala constructs a closure, it determines which outer variables the closure will use and stores references to them in the closure object. This al 阅读全文
摘要:
testFile可以接受一个HDFS文件,可以是一个本地系统的文件,或者是任意hadoop支持的文件系统的URI,返回一个RDD[String] 1.调用hadoopFile,生成一个HadoopRDD 2.将HadoopRdd的key省去,只留value,生成一个mapPartitionRDD 一 阅读全文
摘要:
这个类是用于记录HDFS的Block对应的所有datanode的信息 源码如下: 不得不说在DFSInputStream.java中,叫blockSeekTo的方法 通过输入一个文件的偏移量,返回在哪个datanode上去取是最好的 内部实现有2步: 1. 首先找到根据这个偏移量,对应的block有 阅读全文
摘要:
分布式数据并行环境下,保持数据的本地性是非常重要的内容,事关分布式系统性能高下。 概念: block : HDFS的物理空间概念,固定大小,最小是64M,可以是128,256 。。也就是说单个文件大于block的大小,肯定会被切分,被切分的数目大概是:比如文件是250M,block是64M,就会被分 阅读全文