09 2015 档案

[bigdata] 使用Redis队列来实现与机器无关的Job提交与执行（python实现）

摘要：用例场景：定时从远程多台机器上下载文件存入HDFS中。一开始采用shell 一对一的方式实现，但对于由于网络或者其他原因造成下载失败的任务无法进行重试，且如果某台agent机器down机，将导致它对应的所有下载服务中断，重新提交下载任务也极为麻烦。故考虑采用redis队列来实现与机器无关的job提... 阅读全文

posted @ 2015-09-17 14:39 【雨歌】阅读(554) 评论(0) 推荐(0) 编辑

[bigdata] Spark RDD整理

摘要：1. RDD是什么RDD：Spark的核心概念是RDD (resilient distributed dataset)，指的是一个只读的，可分区的弹性分布式数据集，这个数据集的全部或部分可以缓存在内存中，在多次计算间可重复使用。2. 为什么会产生RDD？（1）传统的MapReduce虽然具有自动容错... 阅读全文

posted @ 2015-09-16 17:32 【雨歌】阅读(1669) 评论(0) 推荐(1) 编辑

[bigdata] flume+kafka+storm实现实时分析计算

摘要：占坑阅读全文

posted @ 2015-09-07 17:58 【雨歌】阅读(218) 评论(0) 推荐(0) 编辑

[bigdata] storm集群安装及测试

摘要：占坑. 阅读全文

posted @ 2015-09-07 17:57 【雨歌】阅读(160) 评论(0) 推荐(0) 编辑

[bigdata] kafka集群安装及测试

摘要：占坑。阅读全文

posted @ 2015-09-07 17:56 【雨歌】阅读(176) 评论(0) 推荐(0) 编辑

[bigdata] spark集群安装及测试

摘要：在spark安装之前，应该已经安装了hadoop原生版或者cdh，因为spark基本要基于hdfs来进行计算。1. 下载spark： http://mirrors.cnnic.cn/apache//spark/spark-1.4.1/spark-1.4.1-bin-hadoop2.3.tgzscal... 阅读全文

posted @ 2015-09-07 17:54 【雨歌】阅读(545) 评论(0) 推荐(0) 编辑

公告

一枚仍在学习路上的IT老兵

认真生活，快乐分享，共同成长

欢迎关注、交流

个人博客：http://blog.jboost.cn
微信公众号：半路雨歌

昵称：【雨歌】
园龄： 10年9个月
粉丝： 131
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

半路雨歌

09 2015 档案

公告

搜索

常用链接

最新随笔

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论