2015年2月1日
摘要: SummarizeSpark Streaming实现了对实时流数据的高吞吐量、地容错的数据处理API。它的数据来源有很多种:Kafka、Flume、Twitter、ZeroMQ、TCP Scoket等。架构图如下:Streaming接收实时流输入的数据,将其按批划分,然后交给Spark Enigne... 阅读全文
posted @ 2015-02-01 13:52 Spark_莫然 阅读(299) 评论(0) 推荐(0) 编辑
摘要: Spark的资源调度由自己实现,主要节点分为Master、Worker、Driver。Driver一般运行在Master节点中。Standalone模式一般的分布式一样也是Master-Slavers的模式,那么关于Master的HA也有多种实现方式:1)文件系统发生故障立即恢复,当Master节点... 阅读全文
posted @ 2015-02-01 13:14 Spark_莫然 阅读(426) 评论(0) 推荐(0) 编辑
摘要: 首先需要修改配置文件spark-env.sh。在这个文件中需要添加两个属性:Export HADOOP_HOME=/../hadoop..ExportHADOOP_CONF_DIR=/../hadoop/etc/hadoop这里,一个是要hadoop的home目录。一个是配置文件目录。还需要配置一个... 阅读全文
posted @ 2015-02-01 13:00 Spark_莫然 阅读(329) 评论(0) 推荐(0) 编辑
摘要: Spark的监测系统。配置文件在目录~/spark-1.1.0-bin-hadoop2.4/conf/metrics.properties.template下。这个配置文件是主要针对Spark内部组件监测的一个配置项。它可以配置一个或多个sinks。一下是metrics的一些基本属性概念“insta... 阅读全文
posted @ 2015-02-01 12:50 Spark_莫然 阅读(708) 评论(0) 推荐(2) 编辑
摘要: 网络管理,由于分布式集群,那么无论master还是worker都离不开网络通讯。Network包位于核心源码org.apache.spark.network中。ConnectionConnection是一个抽象,它有两个子类ReceivingConnection、SendingConnection。... 阅读全文
posted @ 2015-02-01 12:40 Spark_莫然 阅读(357) 评论(0) 推荐(0) 编辑
摘要: Broadcast变量是Spark所支持的两种共享变量。主要共享分布式计算过程中各个task都会用到的只读变量。广播变量允许程序员在每台机器上保持一个只读变量的缓存,而不是发送它的一个副本任务。他们可以用于:给一个大量输入数据集的副本以有效的拷贝到每个节点。Spark也尝试使用高效广播算法来降低通信... 阅读全文
posted @ 2015-02-01 12:36 Spark_莫然 阅读(278) 评论(0) 推荐(0) 编辑
摘要: 在Map和Reduce之间的过程就是Shuffle,Shuffle的性能直接影响整个Spark的性能。所以Shuffle至关重要。Shuffle 介绍从图中得知,Map输出的结构产生在bucket中。而bucket的数量是map*reduce的个数。这里的每一个bucket都对应一个文件。Map对b... 阅读全文
posted @ 2015-02-01 12:29 Spark_莫然 阅读(241) 评论(0) 推荐(0) 编辑
摘要: BlockManagerStoragef模块主要分为两层:1):负责向BlockManagerMaster上报blaock信息,master与slave之间的信息传递通 过m-s的模式传递2):数据层 负责存储和读取信息,主要在disk、memory、tachyon上通常RDD的数据存放在分区中,... 阅读全文
posted @ 2015-02-01 11:57 Spark_莫然 阅读(313) 评论(0) 推荐(0) 编辑
摘要: 用户提交的Job到DAGScheduler后,会封装成ActiveJob,同时启动JobWaiter监听作业的完成情况。同时依据job中RDD的dependency和dependency属性(NarrowDependency,ShufflerDependecy),DAGScheduler会根据依赖关... 阅读全文
posted @ 2015-02-01 11:44 Spark_莫然 阅读(363) 评论(0) 推荐(0) 编辑