摘要: 声明:本文基于spark的programming guide,并融合自己的相关理解整理而成 Spark应用程序总是包含着一个driver program(驱动程序),它执行着用户的main方法,并且执行大量的并行操作(parallel operations)在集群上. 概述 Spark最主要的抽象就 阅读全文
posted @ 2016-06-30 21:48 XGogo 阅读(799) 评论(0) 推荐(0) 编辑
摘要: Spark简介 spark 可以很容易和yarn结合,直接调用HDFS、Hbase上面的数据,和hadoop结合。配置很容易。 spark发展迅猛,框架比hadoop更加灵活实用。减少了延时处理,提高性能效率实用灵活性。也可以与hadoop切实相互结合。 spark核心部分分为RDD。Spark S 阅读全文
posted @ 2016-06-30 20:22 XGogo 阅读(8741) 评论(0) 推荐(0) 编辑
摘要: 转:https://gist.github.com/wuchong/95630f80966d07d7453b#file-hbasenewapi-scala http://wuchong.me/blog/2015/04/04/spark-on-yarn-cluster-deploy/ 阅读全文
posted @ 2016-06-30 20:12 XGogo 阅读(5525) 评论(0) 推荐(0) 编辑
摘要: HBase经过七年发展,终于在今年2月底,发布了 1.0.0 版本。这个版本提供了一些让人激动的功能,并且,在不牺牲稳定性的前提下,引入了新的API。虽然 1.0.0 兼容旧版本的 API,不过还是应该尽早地来熟悉下新版API。并且了解下如何与当下正红的 Spark 结合,进行数据的写入与读取。鉴于 阅读全文
posted @ 2016-06-30 20:10 XGogo 阅读(1817) 评论(0) 推荐(0) 编辑
摘要: 've got big RDD(1gb) in yarn cluster. On local machine, which use this cluster I have only 512 mb. I'd like to iterate over values in RDD on my local 阅读全文
posted @ 2016-06-30 20:03 XGogo 阅读(690) 评论(0) 推荐(0) 编辑
摘要: 摘要: RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个RDD代表一个分区里的数据集 RDD有两种操作算子: Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进 阅读全文
posted @ 2016-06-30 19:58 XGogo 阅读(1286) 评论(0) 推荐(0) 编辑
摘要: I'm trying to write some simple data in HBase (0.96.0-hadoop2) using Spark 1.0 but I keep getting getting serialization problems. Here is the relevant 阅读全文
posted @ 2016-06-30 19:58 XGogo 阅读(685) 评论(0) 推荐(0) 编辑