北在北方

太白枝头看,花开不计年,杯中浮日月,楼外是青天。

导航

上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 20 下一页

2013年4月20日

摘要: 1、Pig数据模型 Bag:表 Tuple:行,记录 Field:属性 Pig不要求同一个Bag里面的各个Tuple有相同数量或相同类型的Field 2、Pig Lating常用语句 1)LOAD:指出载入数据的方法 2)FOREACH:逐行扫描进行某种处理 3)FILTER:过滤行 4)DUMP:把结果显示到屏幕 5)STORE:把结果保存到文件 3、简单例子: 假如有一份成绩单,有学号、语文成绩、数学成绩,属性之间用|分隔,如下:20130001|80|9020130002|85|9620130003|60|7020130... 阅读全文

posted @ 2013-04-20 15:56 CN.programmer.Luxh 阅读(894) 评论(0) 推荐(0) 编辑

2013年4月19日

摘要: Pig相当于Hadoop的客户端软件,它可以连接到Hadoop,通过Pig Lating这种类似SQL的面向数据流的语言对数据进行处理。 用Pig Lating编写的程序,在Pig中执行。Pig把Pig Lating编写的程序编译成MapReduce作业,上传到集群中执行。 Pig可以看作Pig Lating到MapReduce的映射器。 1、下载Pig,我这里下载的是pig-0.9.2.tar.gz,放到/home/coder/目录下。 2、解压Pig。[coder@h1 ~]$ tar -zxvf pig-0.9.2.tar.gz 3、编辑/etc/profile,在文件最后... 阅读全文

posted @ 2013-04-19 22:16 CN.programmer.Luxh 阅读(513) 评论(0) 推荐(0) 编辑

2013年4月16日

摘要: 需要引入Hadoop和Hbase的jar包,我这里HBase用的是hbase-0.90.5版本,所以我这里引入的HBase的jar包是hbase-0.90.5.jar和zookeeper-3.3.2.jar。 一些常用的API操作:package cn.luxh.app.util;import java.io.IOException;import java.util.Arrays;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.... 阅读全文

posted @ 2013-04-16 22:29 CN.programmer.Luxh 阅读(2351) 评论(0) 推荐(0) 编辑

2013年4月13日

摘要: 一个student表,表的逻辑模型如下:行键为学号,时间戳是自动添加的,列族name是名字,列族score是各科分数。行键是唯一的。行键时间戳列族name列族score20130001T2'zhangsan'T3score:Chinese='90'T4score:English='80'20130002T5'lisi'T6score:Chinese='95'......Tn进入HBase的shell:[coder@h1 hbase-0.90.5]$ bin/hbase shellHBase Shell; enter 阅读全文

posted @ 2013-04-13 18:36 CN.programmer.Luxh 阅读(1289) 评论(0) 推荐(0) 编辑

摘要: 有好几次,启动Hadoop和HBase之后,执行jps命令,已经看到有HMaster的进程, 但是进入到HBase的shell,执行一个命令,会出现下面的错误:ERROR: org.apache.hadoop.hbase.MasterNotRunningException: Retried 7 times 进入到logs目录查看master的日志:发现一直显示下面的内容:2013-04-13 17:13:17,374 INFO org.apache.hadoop.hbase.util.FSUtils: Waiting for dfs to exit safe mode...2013-0... 阅读全文

posted @ 2013-04-13 17:32 CN.programmer.Luxh 阅读(1846) 评论(0) 推荐(0) 编辑

2013年4月9日

摘要: HBase是一个基于Hadoop的分布式的、面向列的开源数据库,它以Google的BigTable为原型。 高可用性、高性能、列存储、可伸缩、实时读写。 完全分布式安装HBase是在完全分布式安装好Hadoop的基础上进行的。 HBase的版本和Hadoop的版本需要匹配得上,尽量不要选择最新的版本,应该选稳定版本的。 我这里用的是Hadoop-0.20.2和HBase-0.90.5。 以下操作在hadoop的namenode主节点上进行,在主节点上配置好之后,再复制到各个从节点。1、下载并安装HBase 1)我这里把hbase-0.90.5.tar.gz放到/home/cod... 阅读全文

posted @ 2013-04-09 21:40 CN.programmer.Luxh 阅读(617) 评论(0) 推荐(0) 编辑

2013年4月4日

摘要: 有一批电话通信清单,保存了主叫和被叫的记录,记录格式下,主叫和被叫之间是以空格隔开的。13400001111 1008613500002222 1000013600003333 11413700004444 1258013711111111 1008613822222222 1258013922225555 1258018622220000 11418800000000 114 现在需要做一个倒排索引,记录拨打给被叫的所有主叫号码,记录的格式如下,主叫号码之间以|分隔。10000 13500002222|10086 13400001111|13711111111|114 ... 阅读全文

posted @ 2013-04-04 13:16 CN.programmer.Luxh 阅读(877) 评论(0) 推荐(1) 编辑

2013年4月2日

摘要: 1、常用文件API操作package cn.luxh.app.util;import java.io.IOException;import java.text.SimpleDateFormat;import java.util.Date;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.BlockLocation;import org.apache.hadoop.fs.FSDataOutputStream;import org.apache.hadoop.fs.FileStatus;import or 阅读全文

posted @ 2013-04-02 22:40 CN.programmer.Luxh 阅读(729) 评论(0) 推荐(0) 编辑

摘要: 1、下载eclipse,我下载的是eclipse-jee-juno-SR2-linux-gtk-x86_64.tar.gz 2、解压到/home/coder/eclipse 3、把hadoop安装路径中的/home/coder/hadoop-0.20.2/contrib/eclipse-plugin目录中的hadoop-0.20.2-eclipse-plugin.jar 复制到eclipse安装路径中的/home/coder/eclipse/plugins目录中 4、重启eclipse 5、eclipse菜单 window-->preferences-->Hadoop Map/.. 阅读全文

posted @ 2013-04-02 00:02 CN.programmer.Luxh 阅读(483) 评论(0) 推荐(0) 编辑

2013年4月1日

摘要: 1、有一批路由日志,需要提取MAC地址和时间,删除其他内容。 日志内容格式如下:Apr 15 10:04:42 hostapd: wlan0: STA 14:7D:C5:9E:84Apr 15 10:04:43 hostapd: wlan0: STA 14:7D:C5:9E:85Apr 15 10:04:44 hostapd: wlan0: STA 14:7D:C5:9E:86Apr 15 10:04:45 hostapd: wlan0: STA 14:7D:C5:9E:87Apr 15 10:04:46 hostapd: wlan0: STA 14:7D:C5:9E:88Apr 15 ... 阅读全文

posted @ 2013-04-01 23:10 CN.programmer.Luxh 阅读(1714) 评论(0) 推荐(0) 编辑

上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 20 下一页