09 2015 档案

摘要:用例场景: 定时从远程多台机器上下载文件存入HDFS中。一开始采用shell 一对一的方式实现,但对于由于网络或者其他原因造成下载失败的任务无法进行重试,且如果某台agent机器down机,将导致它对应的所有下载服务中断,重新提交下载任务也极为麻烦。故考虑采用redis队列来实现与机器无关的job提... 阅读全文
posted @ 2015-09-17 14:39 【雨歌】 阅读(554) 评论(0) 推荐(0) 编辑
摘要:1. RDD是什么RDD:Spark的核心概念是RDD (resilient distributed dataset),指的是一个只读的,可分区的弹性分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间可重复使用。2. 为什么会产生RDD?(1)传统的MapReduce虽然具有自动容错... 阅读全文
posted @ 2015-09-16 17:32 【雨歌】 阅读(1669) 评论(0) 推荐(1) 编辑
摘要:占坑 阅读全文
posted @ 2015-09-07 17:58 【雨歌】 阅读(218) 评论(0) 推荐(0) 编辑
摘要:占坑. 阅读全文
posted @ 2015-09-07 17:57 【雨歌】 阅读(160) 评论(0) 推荐(0) 编辑
摘要:占坑。 阅读全文
posted @ 2015-09-07 17:56 【雨歌】 阅读(176) 评论(0) 推荐(0) 编辑
摘要:在spark安装之前,应该已经安装了hadoop原生版或者cdh,因为spark基本要基于hdfs来进行计算。1. 下载spark: http://mirrors.cnnic.cn/apache//spark/spark-1.4.1/spark-1.4.1-bin-hadoop2.3.tgzscal... 阅读全文
posted @ 2015-09-07 17:54 【雨歌】 阅读(545) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示