瞌睡中的葡萄虎

解决Git报错：The current branch is not configured for pull No value for key branch.master.merge found in configuration

摘要： 1、在本地工程目录找到config文件（我的是在D:\git\demo\.git）；2、修改config文件内容为：[core]repositoryformatversion = 0filemode = falsebare = falselogallrefupdates = truesymlinks... 阅读全文

posted @ 2014-06-23 12:49 瞌睡中的葡萄虎阅读(745) 评论(0) 推荐(0) 编辑

Spark核心概念

摘要： 1、Application 基于spark的用户程序，包含了一个Driver Program以及集群上中多个executor； spark中只要有一个sparkcontext就是一个application；启动一个spark-shell也是一个application，因为在启动shark-she... 阅读全文

posted @ 2014-06-21 16:36 瞌睡中的葡萄虎阅读(674) 评论(0) 推荐(0) 编辑

RDD中cache和persist的区别

摘要：通过观察RDD.scala源代码即可知道cache和persist的区别：def persist(newLevel: StorageLevel): this.type = { if (storageLevel != StorageLevel.NONE && newLevel != storage... 阅读全文

posted @ 2014-06-21 15:39 瞌睡中的葡萄虎阅读(4308) 评论(1) 推荐(0) 编辑

RDD缓存策略

摘要： Spark支持将数据集放置在集群的缓存中，以便于数据重用。Spark缓存策略对应的类：class StorageLevel private( private var useDisk_ : Boolean, private var useMemory_ : Boolean, ... 阅读全文

posted @ 2014-06-21 15:23 瞌睡中的葡萄虎阅读(3742) 评论(0) 推荐(0) 编辑

Spark核心概念之RDD

摘要： RDD:ResilientDistributedDatasetRDD的特点：1、A list ofpartitions 一系列的分片：比如说64M一片；类似于Hadoop中的split；2、Afunctionfor computing each split 在每个分片上都有一个函数去迭代/执行/... 阅读全文

posted @ 2014-06-21 15:12 瞌睡中的葡萄虎阅读(1040) 评论(0) 推荐(0) 编辑

为什么要使用Spark？

摘要：现有的hadoop生态系统中存在的问题1）使用mapreduce进行批量离线分析；2）使用hive进行历史数据的分析；3）使用hbase进行实时数据的查询；4）使用storm进行实时的流处理；5）。。。。。。导致：维护成本高、学习成本高Spark的出现弥补了Hadoop生态系统中的缺陷，使用spar... 阅读全文

posted @ 2014-06-20 00:16 瞌睡中的葡萄虎阅读(1417) 评论(0) 推荐(0) 编辑

Spark Standalone模式伪分布式环境搭建

摘要：前提：安装好jdk1.7，hadoop安装步骤：1、安装scala下载地址：http://www.scala-lang.org/download/配置环境变量：export SCALA_HOME=/..../scalaexport PATH=.:$SCALA_HOME/bin ....验证：sca... 阅读全文

posted @ 2014-06-20 00:15 瞌睡中的葡萄虎阅读(2314) 评论(0) 推荐(0) 编辑

Spark1.0源码编译

摘要：编译方式一：mavenexport MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"mvn -Pyarn -Phive -Dhadoop.version=2.3.0-cdh5.0.0 -Dyarn.vers... 阅读全文

posted @ 2014-06-20 00:13 瞌睡中的葡萄虎阅读(519) 评论(0) 推荐(0) 编辑

瞌睡中的葡萄虎

公告