摘要:使用的ide是eclipsepackage com.luogankun.spark.baseimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.SparkContex...
阅读全文
随笔分类 - Spark
摘要:Spark Standalone模式常见的HA部署方式有两种:基于文件系统的HA和基于ZK的HA本篇只介绍基于ZK的HA环境搭建:$SPARK_HOME/conf/spark-env.sh添加SPARK_DAEMON_JAVA_OPTS的配置信息:export SPARK_DAEMON_JAVA_O...
阅读全文
摘要:在spark1.0中推出spark-submit来统一提交applicaiton./bin/spark-submit \ --class --master \ --deploy-mode \ ... # other options \ [application-arguments...
阅读全文
摘要:spark jdbc分支源码下载地址 https://github.com/apache/spark/tree/branch-1.0-jdbc编译spark jdbc ./make-distribution.sh --hadoop 2.3.0-cdh5.0.0 --with-yarn --wit...
阅读全文
摘要:SparkContext作为整个Spark的入口,不管是spark、sparkstreaming、spark sql都需要首先创建一个SparkContext对象,然后基于这个SparkContext进行后续RDD的操作;所以很有必要了解下SparkContext在初始化时干了什么事情。SparkC...
阅读全文
摘要:DAGScheduler概述:是一个面向Stage层面的调度器;主要入参有:dagScheduler.runJob(rdd,cleanedFunc, partitions, callSite, allowLocal,resultHandler, localProperties.get)rdd: fi...
阅读全文
摘要:Master.preStart(){ webUi.bind() context.system.scheduler.schedule(0 millis, WORKER_TIMEOUT millis, self, CheckForWorkerTimeOut) //定时任务检测是否有DEAD WORK...
阅读全文
摘要:override def preStart() { webUi = new WorkerWebUI(this, workDir, Some(webUiPort)) webUi.bind() //创建并绑定UI registerWithMaster() //注册到Master}d...
阅读全文
摘要:override def preStart() { logInfo("Starting Spark master at " + masterUrl) webUi.bind() //绑定WEBUI masterWebUiUrl = "http://" + masterPubli...
阅读全文
摘要:前提:1、spark1.0的包编译时指定支持hive:./make-distribution.sh --hadoop 2.3.0-cdh5.0.0 --with-yarn--with-hive--tgz2、安装完spark1.0;3、拷贝mysql驱动包到$SPARK_HOME/lib下;Spark...
阅读全文
摘要:在spark1.0中属性支持三种配置方式:1、代码在代码中构造SparkConf时指定master、appname或者key-value等val conf = new SparkConf();conf.setAppName("WordCount").setMaster(" spark://hadoo...
阅读全文
摘要:通过观察RDD.scala源代码即可知道cache和persist的区别:def persist(newLevel: StorageLevel): this.type = { if (storageLevel != StorageLevel.NONE && newLevel != storage...
阅读全文
摘要:Spark支持将数据集放置在集群的缓存中,以便于数据重用。Spark缓存策略对应的类:class StorageLevel private( private var useDisk_ : Boolean, private var useMemory_ : Boolean, ...
阅读全文
摘要:RDD:ResilientDistributedDatasetRDD的特点:1、A list ofpartitions 一系列的分片:比如说64M一片;类似于Hadoop中的split;2、Afunctionfor computing each split 在每个分片上都有一个函数去迭代/执行/...
阅读全文
摘要:现有的hadoop生态系统中存在的问题1)使用mapreduce进行批量离线分析;2)使用hive进行历史数据的分析;3)使用hbase进行实时数据的查询;4)使用storm进行实时的流处理;5)。。。。。。导致:维护成本高、学习成本高Spark的出现弥补了Hadoop生态系统中的缺陷,使用spar...
阅读全文
摘要:前提:安装好jdk1.7,hadoop安装步骤:1、安装scala下载地址:http://www.scala-lang.org/download/配置环境变量:export SCALA_HOME=/..../scalaexport PATH=.:$SCALA_HOME/bin ....验证:sca...
阅读全文
摘要:编译方式一:mavenexport MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"mvn -Pyarn -Phive -Dhadoop.version=2.3.0-cdh5.0.0 -Dyarn.vers...
阅读全文