会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
欲速则不达
积土成山,风雨兴焉;积水成渊,蛟龙生焉;积善成德,而神明自得,圣心备焉。故不积跬步,无以至千里;不积小流,无以成江海。骐骥一跃,不能十步;驽马十驾,功在不舍。锲而舍之,朽木不折;锲而不舍,金石可镂。蚓无爪牙之利,筋骨之强,上食埃土 ,下饮黄泉 ,用心一也。蟹六跪而二螯,非蛇鳝之穴无可寄托者,用心躁也。
博客园
首页
新随笔
联系
订阅
管理
[置顶]
学习MapReduce编程场景(一)
摘要: 最近因为找工作的原因,都有两个周没有写博客了。今天来学习一个MapReduce编程场景。 这是一个处理基站数据的场景。基站数据被抽象成两个文件,分别是以“NET”开头和“POS”开头的文件。一个是记录用户的移动位置,另一个是记录用户的上网数据。任务是从大量的这些数据中提取出用户的移动轨迹,...
阅读全文
posted @ 2015-03-15 15:39 Uber
阅读(1396)
评论(1)
推荐(2)
编辑
[置顶]
Storm集群的DRPC模式
摘要: storm的DRPC模式的作用是实现从远程调用storm集群的计算资源,而不需要连接到集群的某一个节点。OK。那么storm实现DRPC主要是使用LinearDRPCTopologyBuilder这个类。下面就先来看看一个简单的例子,它的源码的github上。import backtype.st...
阅读全文
posted @ 2015-03-07 17:22 Uber
阅读(5553)
评论(0)
推荐(0)
编辑
[置顶]
HBase完全分布式安装以及Hive远程模式(mysql作为数据库)的安装
摘要: 各位真的不好意思。上次的博文有误。上次的应该是HBase的伪分布式安装。这次本人保证是完全分布式安装。 首先是HBase的完成分布式安装。这次部署的环境是hadoop-1.2.1+hbase-0.98.X。因为这个版本的HBase是直接对应hadoop-1.2.1,故也就省去了覆盖jar包...
阅读全文
posted @ 2015-03-05 12:06 Uber
阅读(2128)
评论(0)
推荐(1)
编辑
[置顶]
Data Collection with Apache Flume(三)
摘要: 最后提及两个agent。首先第一个是使用一个avro souce和一个avro sink向另一个agent传递event,然后再写入特定目录。 先看看配置代码。 agent6.sources = avrosource //定义avrosource,可以使用avro client在网络上向其传...
阅读全文
posted @ 2015-03-02 10:51 Uber
阅读(728)
评论(0)
推荐(0)
编辑
[置顶]
Data Collection with Apache Flume(二)
摘要: 今天继续讨论几个agent的配置。 第一个agent是从终端捕获特定命令执行的输出结果,并将文件输出到特定目录。先看一下配置的代码: agent2.sources = execsource //指定为从命令获取输出的sourceagent2.sinks = filesink ...
阅读全文
posted @ 2015-03-01 12:38 Uber
阅读(778)
评论(0)
推荐(0)
编辑
[置顶]
Data Collection with Apache Flume(一)
摘要: 首先介绍一下Flume是个神马东东。Flume可以实现从多种数据源获取数据,然后传递到不同的目标路径。通常是利用Flume传送logs到不同的地方,例如从web server收集logs文件然后传送到hadoop cluster进行分析之类的。Flume配置灵活简单,可以实现不同情况的日志传送...
阅读全文
posted @ 2015-02-28 12:23 Uber
阅读(406)
评论(0)
推荐(0)
编辑
[置顶]
storm的八种Grouping策略
摘要: 在这里,将会提到storm的七种grouping策略,并且编码逐一实现。 首先,需要一个集群(希望尽量模仿真实环境,故就不用本地模式了)。详细的安装方法大家可以查看本人的另外一篇博文:storm集群和zookeeper集群的部署过程。 OK。现在有三个节点。一个作为nimbus,两个作...
阅读全文
posted @ 2015-02-24 22:34 Uber
阅读(7848)
评论(2)
推荐(0)
编辑
[置顶]
那么NN、DN、JT、TT的问题来了。。。。
摘要: 首先,今天是羊年初一。祝看到这篇博文的朋友们新春快乐!身体健康!心想事成!万事胜意! 言归正传。hadoop中的两大核心分别是HDFS以及MapReduce。HDFS分布式文件系统有NameNode、DataNode以及SecondaryNameNode三种节点进程,同时MR有JobTrack...
阅读全文
posted @ 2015-02-19 16:11 Uber
阅读(1688)
评论(0)
推荐(0)
编辑
[置顶]
学习的一个MapReduce程序(《beginner`s guide》中的例子)
摘要: 第一个MR程序是实现关系型数据库中经常都会遇到的表连接操作,也就是join。这里是连接sales和accounts表,通过共同的ID列进行连接。同时统计出总的购买件数以及总的消费额。下面是两个示例数据,一个是sales.txt,另一个是accounts.txt。首先是sales.txt:001 ...
阅读全文
posted @ 2015-02-15 22:28 Uber
阅读(708)
评论(0)
推荐(2)
编辑
[置顶]
安装sqoop,并将Mysql中的表数据导出到HDFS下的文本文件
摘要: 首先是安装mysql数据库。使用 sudo apt-get install mysql-server命令即可安装完成。然后进行表的创建和插入数据。如图。然后下载sqoop和连接mysql数据库的jar包。接下来是安装sqoop。首先是配置sqoop-env.sh文件。如图。然后将config-sqo...
阅读全文
posted @ 2015-02-13 19:46 Uber
阅读(972)
评论(0)
推荐(0)
编辑
[置顶]
hbase伪分布式安装
摘要: 首先下载与hadoop-1.1.2对应的HBase版本,这里下载的是HBase0.96.2.如图。这个版本已经包含了hadoop-core-1.1.2.jar包,即不用做覆盖核心jar包的一步。然后对hbase进行配置。具体有hbase-env.sh以及hbase-site.xml如图。接下来即可启...
阅读全文
posted @ 2015-02-12 11:36 Uber
阅读(164)
评论(0)
推荐(0)
编辑
[置顶]
按照《权威指南》的例子求最低温度并且修改默认调度器为FairScheduler
摘要: 首先我只是下载了2003年的数据,因为网络较慢……然后把数据整合到test.txt中,upload到hdfs文件系统中。如图。已有一个test.txt。数据准备好之后,开始搞代码。代码如图。然后把它们打包成一个jar包,运行。结果求得2003年的最低温度是-807。如图。搞掂!!接下来是实现hado...
阅读全文
posted @ 2015-02-10 11:11 Uber
阅读(812)
评论(0)
推荐(1)
编辑
[置顶]
利用hadoop1.x集群进行探索性实验(四)~(五)【重复格式化NN后,DN不能启动】【控制namenode检查点发生的频率】
摘要: 多次重复格式化namenode后,datanode不能启动,重新将datanode加入集群。解决办法是用namenode的version文件中的namespaceID替换掉datanode的namespaceID,使到两个的namespaceID一致,就能重新加入datanode。如图。(names...
阅读全文
posted @ 2015-02-08 21:44 Uber
阅读(521)
评论(0)
推荐(0)
编辑
[置顶]
利用hadoop1.x集群进行探索性实验(三)【修改HDFS块大小】
摘要: 首先看一下当前块大小。如图,使用命令hadoop fs -stat "%o" /目录/文件 由于hadoop是按照块来存储文件的,故不管文件是否有一个块大小的容量也会占用一个块。关闭集群,进入hdfs-site.xml,添加属性dfs.block.size.如图。改成128MB。重启集群,查看块大小...
阅读全文
posted @ 2015-02-08 20:22 Uber
阅读(312)
评论(0)
推荐(0)
编辑
[置顶]
利用hadoop1.x集群进行探索性实验(二)【模拟namenode崩溃,通过secondary namenode恢复namenode】
摘要: 启动集群之后,删除name目录,模拟集群namenode节点崩溃。再次启动发现namenode启动不了。如图。做法是:关闭集群,然后重新格式化HDFS以再次产生name目录。进入data目录中,打开datanode的version文件,将datanode的namespaceID复制,然后覆盖掉nam...
阅读全文
posted @ 2015-02-07 22:23 Uber
阅读(540)
评论(0)
推荐(0)
编辑
[置顶]
利用hadoop1.x集群进行探索性实验(一)【对WEB监控界面增加安全机制】
摘要: 这个实验我选择了简单的做法,并没有用到kerkeros。本人会努力,尽快学会用到kerkeros给hadoop增加安全机制,使我的小象不再“裸奔”。首先是打开hdfs-site.xml,然后加入如下属性。最后设置登录用户名。就是在设置hadoop.http.authentication.signat...
阅读全文
posted @ 2015-02-06 23:38 Uber
阅读(601)
评论(0)
推荐(0)
编辑
[置顶]
本地编译64位hadoop并进行部署。
摘要: 我是接着用上次已经部署好的环境,故已经有ssh以及java。没有安装这两个的朋友可以看本人关于伪分布式安装的博文。首先是输入命令sudo apt-get install g++ autoconf automake libtool make cmake zlib1g-dev pkg-config li...
阅读全文
posted @ 2015-02-05 23:07 Uber
阅读(917)
评论(0)
推荐(0)
编辑
[置顶]
hadoop完全分布式安装
摘要: 1、安装环境是vmware workstation10.0模拟出三个虚拟节点,每一个节点安装Ubuntu12.04 LTS操作系统,主机名分别是hadoop1、hadoop2以及hadoop3.同时在每一个节点安装好java。安装方法同之前介绍的伪分布式安装方法一样。2、接着是对三个节点的hosts...
阅读全文
posted @ 2015-02-04 22:41 Uber
阅读(1081)
评论(0)
推荐(1)
编辑
[置顶]
storm集群和zookeeper集群的部署过程
摘要: 本次实验的环境为VM station 10 安装三个虚拟机,系统为centOS6.5。IP分别如下图。如下图,三个虚拟机均安装了Java1.7以及配置好了hosts文件。接着是下载zookeeper-3.4.6(这里推荐使用此版本),进入conf目录下,将zoo_sample.cfg复制成zoo.c...
阅读全文
posted @ 2015-02-02 19:26 Uber
阅读(2011)
评论(0)
推荐(0)
编辑
下一页