杰克再造

OpenStack

摘要：一套开源软件项目，可以提供私有云的全套解决方案的接口 OPenStack主要有以下5个部分构成 Nova 负责计算 swift 负责存储 glance 负责镜像 keystone 负责认证 Horizon 负责UI Nova通过web service API对外提供处理接口， Nova负责管理整个云阅读全文

posted @ 2016-07-07 14:53 杰克再造阅读(148) 评论(0) 推荐(0)

docker的典型应用场景

摘要： docker是lxc的增强版，不是替代版，其底层也是用lxc实现的 1. 多版本混合部署一台服务器上部署多个应用或者一个应用的多个版本非常常见。文件路径，配置信息，端口冲突不可避免 docker的每个容器有自己的文件系统，并通过端口映射解决端口冲突的问题 2.升级回滚升级通常还有依赖项的版本变阅读全文

posted @ 2016-07-06 16:57 杰克再造阅读(252) 评论(0) 推荐(0)

Spark调度模型

摘要：调度模型的好坏，是由底层的抽象模型所决定的，spark的底层抽象是RDD spark调度模型系统，分为底层调度模型(TASKscheduler)和高层调度模型(DAGscheduler) 调度过程 1. application driver发出请求，这个application首先创建sparkcon 阅读全文

posted @ 2016-07-06 10:33 杰克再造阅读(292) 评论(0) 推荐(0)

The purpose of ClosureCleaner.clean

摘要： When Scala constructs a closure, it determines which outer variables the closure will use and stores references to them in the closure object. This al 阅读全文

posted @ 2016-07-05 15:45 杰克再造阅读(172) 评论(0) 推荐(0)

textFile

摘要： testFile可以接受一个HDFS文件，可以是一个本地系统的文件，或者是任意hadoop支持的文件系统的URI，返回一个RDD[String] 1.调用hadoopFile，生成一个HadoopRDD 2.将HadoopRdd的key省去，只留value，生成一个mapPartitionRDD 一阅读全文

posted @ 2016-07-05 15:44 杰克再造阅读(183) 评论(0) 推荐(0)

LocatedBlock

摘要：这个类是用于记录HDFS的Block对应的所有datanode的信息源码如下：不得不说在DFSInputStream.java中，叫blockSeekTo的方法通过输入一个文件的偏移量，返回在哪个datanode上去取是最好的内部实现有2步： 1. 首先找到根据这个偏移量，对应的block有阅读全文

posted @ 2016-07-05 14:25 杰克再造阅读(276) 评论(0) 推荐(0)

Spark中的数据本地性

摘要：分布式数据并行环境下，保持数据的本地性是非常重要的内容，事关分布式系统性能高下。概念： block ： HDFS的物理空间概念，固定大小，最小是64M，可以是128,256 。。也就是说单个文件大于block的大小，肯定会被切分，被切分的数目大概是：比如文件是250M，block是64M，就会被分阅读全文

posted @ 2016-07-05 11:46 杰克再造阅读(2801) 评论(1) 推荐(0)

zookeeper

摘要： ZooKeeper。它是Apache Hadoop的一个子项目，它主要用来解决分布式集群中应用系统的一致性问题这个一致性可以是数据，可以是程序，可以是配置文件 ZooKeeper数据节点，就是znode Zookeeper 并不是用来专门存储数据的，它的作用主要是用来维护和监控你存储的数据的状态变阅读全文

posted @ 2016-07-05 10:48 杰克再造阅读(321) 评论(0) 推荐(0)

导航

公告