Spark - 随笔分类(第3页) - 瞌睡中的葡萄虎

Spark wordcount开发并提交到集群运行

摘要：使用的ide是eclipsepackage com.luogankun.spark.baseimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.SparkContex... 阅读全文

posted @ 2014-07-23 17:53 瞌睡中的葡萄虎阅读(4584) 评论(0) 推荐(0) 编辑

Spark Standalone模式HA环境搭建

摘要：Spark Standalone模式常见的HA部署方式有两种：基于文件系统的HA和基于ZK的HA本篇只介绍基于ZK的HA环境搭建：$SPARK_HOME/conf/spark-env.sh添加SPARK_DAEMON_JAVA_OPTS的配置信息：export SPARK_DAEMON_JAVA_O... 阅读全文

posted @ 2014-07-10 23:23 瞌睡中的葡萄虎阅读(653) 评论(0) 推荐(0) 编辑

spark-submit 提交Application

摘要：在spark1.0中推出spark-submit来统一提交applicaiton./bin/spark-submit \ --class --master \ --deploy-mode \ ... # other options \ [application-arguments... 阅读全文

posted @ 2014-07-10 17:31 瞌睡中的葡萄虎阅读(6457) 评论(0) 推荐(0) 编辑

Spark JDBC入门测试

摘要：spark jdbc分支源码下载地址 https://github.com/apache/spark/tree/branch-1.0-jdbc编译spark jdbc ./make-distribution.sh --hadoop 2.3.0-cdh5.0.0 --with-yarn --wit... 阅读全文

posted @ 2014-07-10 17:09 瞌睡中的葡萄虎阅读(1490) 评论(0) 推荐(0) 编辑

Spark分析之SparkContext启动过程分析

摘要：SparkContext作为整个Spark的入口，不管是spark、sparkstreaming、spark sql都需要首先创建一个SparkContext对象，然后基于这个SparkContext进行后续RDD的操作；所以很有必要了解下SparkContext在初始化时干了什么事情。SparkC... 阅读全文

posted @ 2014-07-05 23:43 瞌睡中的葡萄虎阅读(3647) 评论(0) 推荐(0) 编辑

Spark分析之DAGScheduler

摘要：DAGScheduler概述：是一个面向Stage层面的调度器；主要入参有：dagScheduler.runJob(rdd,cleanedFunc, partitions, callSite, allowLocal,resultHandler, localProperties.get)rdd： fi... 阅读全文

posted @ 2014-07-05 18:17 瞌睡中的葡萄虎阅读(5552) 评论(1) 推荐(1) 编辑

Spark分析之Master、Worker以及Application三者之间如何建立连接

摘要：Master.preStart(){ webUi.bind() context.system.scheduler.schedule(0 millis, WORKER_TIMEOUT millis, self, CheckForWorkerTimeOut) //定时任务检测是否有DEAD WORK... 阅读全文

posted @ 2014-07-05 16:41 瞌睡中的葡萄虎阅读(1289) 评论(0) 推荐(0) 编辑

Spark分析之Worker

摘要：override def preStart() { webUi = new WorkerWebUI(this, workDir, Some(webUiPort)) webUi.bind() //创建并绑定UI registerWithMaster() //注册到Master}d... 阅读全文

posted @ 2014-07-05 16:20 瞌睡中的葡萄虎阅读(358) 评论(0) 推荐(0) 编辑

Spark分析之Master

摘要：override def preStart() { logInfo("Starting Spark master at " + masterUrl) webUi.bind() //绑定WEBUI masterWebUiUrl = "http://" + masterPubli... 阅读全文

posted @ 2014-06-30 17:03 瞌睡中的葡萄虎阅读(664) 评论(0) 推荐(0) 编辑

Spark SQL Hive Support Demo

摘要：前提：1、spark1.0的包编译时指定支持hive：./make-distribution.sh --hadoop 2.3.0-cdh5.0.0 --with-yarn--with-hive--tgz2、安装完spark1.0；3、拷贝mysql驱动包到$SPARK_HOME/lib下；Spark... 阅读全文

posted @ 2014-06-26 09:47 瞌睡中的葡萄虎阅读(1895) 评论(0) 推荐(0) 编辑

spark1.0属性配置以及spark-submit简单使用

摘要：在spark1.0中属性支持三种配置方式：1、代码在代码中构造SparkConf时指定master、appname或者key-value等val conf = new SparkConf();conf.setAppName("WordCount").setMaster(" spark://hadoo... 阅读全文

posted @ 2014-06-24 10:42 瞌睡中的葡萄虎阅读(1507) 评论(0) 推荐(0) 编辑

RDD中cache和persist的区别

摘要：通过观察RDD.scala源代码即可知道cache和persist的区别：def persist(newLevel: StorageLevel): this.type = { if (storageLevel != StorageLevel.NONE && newLevel != storage... 阅读全文

posted @ 2014-06-21 15:39 瞌睡中的葡萄虎阅读(4309) 评论(1) 推荐(0) 编辑

RDD缓存策略

摘要：Spark支持将数据集放置在集群的缓存中，以便于数据重用。Spark缓存策略对应的类：class StorageLevel private( private var useDisk_ : Boolean, private var useMemory_ : Boolean, ... 阅读全文

posted @ 2014-06-21 15:23 瞌睡中的葡萄虎阅读(3743) 评论(0) 推荐(0) 编辑

Spark核心概念之RDD

摘要：RDD:ResilientDistributedDatasetRDD的特点：1、A list ofpartitions 一系列的分片：比如说64M一片；类似于Hadoop中的split；2、Afunctionfor computing each split 在每个分片上都有一个函数去迭代/执行/... 阅读全文

posted @ 2014-06-21 15:12 瞌睡中的葡萄虎阅读(1040) 评论(0) 推荐(0) 编辑

为什么要使用Spark？

摘要：现有的hadoop生态系统中存在的问题1）使用mapreduce进行批量离线分析；2）使用hive进行历史数据的分析；3）使用hbase进行实时数据的查询；4）使用storm进行实时的流处理；5）。。。。。。导致：维护成本高、学习成本高Spark的出现弥补了Hadoop生态系统中的缺陷，使用spar... 阅读全文

posted @ 2014-06-20 00:16 瞌睡中的葡萄虎阅读(1417) 评论(0) 推荐(0) 编辑

Spark Standalone模式伪分布式环境搭建

摘要：前提：安装好jdk1.7，hadoop安装步骤：1、安装scala下载地址：http://www.scala-lang.org/download/配置环境变量：export SCALA_HOME=/..../scalaexport PATH=.:$SCALA_HOME/bin ....验证：sca... 阅读全文

posted @ 2014-06-20 00:15 瞌睡中的葡萄虎阅读(2315) 评论(0) 推荐(0) 编辑

Spark1.0源码编译

摘要：编译方式一：mavenexport MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"mvn -Pyarn -Phive -Dhadoop.version=2.3.0-cdh5.0.0 -Dyarn.vers... 阅读全文

posted @ 2014-06-20 00:13 瞌睡中的葡萄虎阅读(519) 评论(0) 推荐(0) 编辑

瞌睡中的葡萄虎

公告

随笔分类 - Spark