瞌睡中的葡萄虎

博客园 首页 新随笔 联系 订阅 管理
  148 随笔 :: 0 文章 :: 16 评论 :: 40万 阅读

06 2014 档案

摘要:override def preStart() { logInfo("Starting Spark master at " + masterUrl) webUi.bind() //绑定WEBUI masterWebUiUrl = "http://" + masterPubli... 阅读全文
posted @ 2014-06-30 17:03 瞌睡中的葡萄虎 阅读(667) 评论(0) 推荐(0) 编辑

摘要:Hive与HBase的整合功能的实现是利用两者本身对外的API接口互相进行通信,相互通信主要是依靠hive-hbase-handler.jar工具类 ;hive-hbase-handler.jar在hive的lib包中而不是在hbase的lib中,hive0.6版本以后;创建hive表的同时创建hb... 阅读全文
posted @ 2014-06-26 17:48 瞌睡中的葡萄虎 阅读(3064) 评论(0) 推荐(0) 编辑

摘要:前提:1、spark1.0的包编译时指定支持hive:./make-distribution.sh --hadoop 2.3.0-cdh5.0.0 --with-yarn--with-hive--tgz2、安装完spark1.0;3、拷贝mysql驱动包到$SPARK_HOME/lib下;Spark... 阅读全文
posted @ 2014-06-26 09:47 瞌睡中的葡萄虎 阅读(1895) 评论(0) 推荐(0) 编辑

摘要:在spark1.0中属性支持三种配置方式:1、代码在代码中构造SparkConf时指定master、appname或者key-value等val conf = new SparkConf();conf.setAppName("WordCount").setMaster(" spark://hadoo... 阅读全文
posted @ 2014-06-24 10:42 瞌睡中的葡萄虎 阅读(1512) 评论(0) 推荐(0) 编辑

摘要:1、在本地工程目录找到config文件(我的是在D:\git\demo\.git);2、修改config文件内容为:[core]repositoryformatversion = 0filemode = falsebare = falselogallrefupdates = truesymlinks... 阅读全文
posted @ 2014-06-23 12:49 瞌睡中的葡萄虎 阅读(748) 评论(0) 推荐(0) 编辑

摘要:1、Application 基于spark的用户程序,包含了一个Driver Program以及集群上中多个executor; spark中只要有一个sparkcontext就是一个application; 启动一个spark-shell也是一个application,因为在启动shark-she... 阅读全文
posted @ 2014-06-21 16:36 瞌睡中的葡萄虎 阅读(677) 评论(0) 推荐(0) 编辑

摘要:通过观察RDD.scala源代码即可知道cache和persist的区别:def persist(newLevel: StorageLevel): this.type = { if (storageLevel != StorageLevel.NONE && newLevel != storage... 阅读全文
posted @ 2014-06-21 15:39 瞌睡中的葡萄虎 阅读(4312) 评论(1) 推荐(0) 编辑

摘要:Spark支持将数据集放置在集群的缓存中,以便于数据重用。Spark缓存策略对应的类:class StorageLevel private( private var useDisk_ : Boolean, private var useMemory_ : Boolean, ... 阅读全文
posted @ 2014-06-21 15:23 瞌睡中的葡萄虎 阅读(3746) 评论(0) 推荐(0) 编辑

摘要:RDD:ResilientDistributedDatasetRDD的特点:1、A list ofpartitions 一系列的分片:比如说64M一片;类似于Hadoop中的split;2、Afunctionfor computing each split 在每个分片上都有一个函数去迭代/执行/... 阅读全文
posted @ 2014-06-21 15:12 瞌睡中的葡萄虎 阅读(1043) 评论(0) 推荐(0) 编辑

摘要:现有的hadoop生态系统中存在的问题1)使用mapreduce进行批量离线分析;2)使用hive进行历史数据的分析;3)使用hbase进行实时数据的查询;4)使用storm进行实时的流处理;5)。。。。。。导致:维护成本高、学习成本高Spark的出现弥补了Hadoop生态系统中的缺陷,使用spar... 阅读全文
posted @ 2014-06-20 00:16 瞌睡中的葡萄虎 阅读(1420) 评论(0) 推荐(0) 编辑

摘要:前提:安装好jdk1.7,hadoop安装步骤:1、安装scala下载地址:http://www.scala-lang.org/download/配置环境变量:export SCALA_HOME=/..../scalaexport PATH=.:$SCALA_HOME/bin ....验证:sca... 阅读全文
posted @ 2014-06-20 00:15 瞌睡中的葡萄虎 阅读(2317) 评论(0) 推荐(0) 编辑

摘要:编译方式一:mavenexport MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"mvn -Pyarn -Phive -Dhadoop.version=2.3.0-cdh5.0.0 -Dyarn.vers... 阅读全文
posted @ 2014-06-20 00:13 瞌睡中的葡萄虎 阅读(520) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示