摘要:
在spark1.0中推出spark-submit来统一提交applicaiton./bin/spark-submit \ --class --master \ --deploy-mode \ ... # other options \ [application-arguments... 阅读全文
2014年7月10日 #
摘要:
spark jdbc分支源码下载地址 https://github.com/apache/spark/tree/branch-1.0-jdbc编译spark jdbc ./make-distribution.sh --hadoop 2.3.0-cdh5.0.0 --with-yarn --wit... 阅读全文
2014年7月5日 #
摘要:
SparkContext作为整个Spark的入口,不管是spark、sparkstreaming、spark sql都需要首先创建一个SparkContext对象,然后基于这个SparkContext进行后续RDD的操作;所以很有必要了解下SparkContext在初始化时干了什么事情。SparkC... 阅读全文
摘要:
DAGScheduler概述:是一个面向Stage层面的调度器;主要入参有:dagScheduler.runJob(rdd,cleanedFunc, partitions, callSite, allowLocal,resultHandler, localProperties.get)rdd: fi... 阅读全文
摘要:
Master.preStart(){ webUi.bind() context.system.scheduler.schedule(0 millis, WORKER_TIMEOUT millis, self, CheckForWorkerTimeOut) //定时任务检测是否有DEAD WORK... 阅读全文
摘要:
override def preStart() { webUi = new WorkerWebUI(this, workDir, Some(webUiPort)) webUi.bind() //创建并绑定UI registerWithMaster() //注册到Master}d... 阅读全文
2014年6月30日 #
摘要:
override def preStart() { logInfo("Starting Spark master at " + masterUrl) webUi.bind() //绑定WEBUI masterWebUiUrl = "http://" + masterPubli... 阅读全文
2014年6月26日 #
摘要:
Hive与HBase的整合功能的实现是利用两者本身对外的API接口互相进行通信,相互通信主要是依靠hive-hbase-handler.jar工具类 ;hive-hbase-handler.jar在hive的lib包中而不是在hbase的lib中,hive0.6版本以后;创建hive表的同时创建hb... 阅读全文
摘要:
前提:1、spark1.0的包编译时指定支持hive:./make-distribution.sh --hadoop 2.3.0-cdh5.0.0 --with-yarn--with-hive--tgz2、安装完spark1.0;3、拷贝mysql驱动包到$SPARK_HOME/lib下;Spark... 阅读全文
2014年6月24日 #
摘要:
在spark1.0中属性支持三种配置方式:1、代码在代码中构造SparkConf时指定master、appname或者key-value等val conf = new SparkConf();conf.setAppName("WordCount").setMaster(" spark://hadoo... 阅读全文