摘要: 使用 Apache Pig 从大数据集中获得所需的信息Apache Pig 是一个高级过程语言,适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似 SQL 的查询,Pig 可以简化 Hadoop 的使用。本文将探索 Pig 背后的语言,并在... 阅读全文
posted @ 2014-06-15 18:31 jseven 阅读(186) 评论(0) 推荐(0) 编辑
摘要: 一位医生在接到紧急手术的电话后,以最快的速度赶到医院并换上手术服,男孩的父亲失控地对他喊道:“你怎么这么晚才来?你难道不知道我儿子正处在危险中吗?你怎么一点责任心都没有。”医生淡然地笑着说:“很抱歉,刚刚我不在医院,接到电话就马上赶来了,您冷静一下。“冷静?如果手术室里躺着的是你的儿子,你能冷静... 阅读全文
posted @ 2014-06-15 18:15 jseven 阅读(221) 评论(0) 推荐(0) 编辑
摘要: 1、Working with UDF(user defined function) pig能够支持两种类型的UDFs:eval和load/store, 其中load/store的自定义函数主要是用来加载和保存特定的数据格式; eval自定义函数主要用来进行常规的数据转换。1.1 eval 如... 阅读全文
posted @ 2014-06-15 18:06 jseven 阅读(677) 评论(0) 推荐(0) 编辑
摘要: 1、练习 首先编写两个数据文件A: 0,1,2 1,3,4 数据文件B: 0,5,2 1,7,8 上传到HDFS对应目录/input目录下2、运行pig ,加载A和B 加载数据A:使用指定的分隔符, grunt> a = load '/input/A' using PigStora... 阅读全文
posted @ 2014-06-15 17:38 jseven 阅读(164) 评论(0) 推荐(0) 编辑
摘要: 1、在pig下载的安装包,解压完成了之后,有一个tutorial目录,我们使用里面的数据来开始pig学习。如果tutorial目录下没有存在pigtutorial.tar.gz文件的话,那么需要使用ant来编译出这个文件 如果没有ant,见分类linux下的ant安装2、进入tutorial目录,... 阅读全文
posted @ 2014-06-15 17:27 jseven 阅读(453) 评论(0) 推荐(0) 编辑
摘要: 1、检查空间是否够用(我的就是这个原因) df -hl 查看,如果可用的很少,那就是了。2、datanode是否正常启动 访问:50070,查看datanode的个数,如果不对应,重新启动3、是否在safemode下 hadoop dfsadmin -safemode get,查看,leave... 阅读全文
posted @ 2014-06-15 17:13 jseven 阅读(226) 评论(0) 推荐(0) 编辑
摘要: 1、下载 http://ant.apache.org/bindownload.cgi2、linux 下解压,tar -zxvf apache-ant...3、设置环境变量 ANT_HOME=... 添加ANT_HOME/bin进入PATH里面。4、source /etc/profile5、查看... 阅读全文
posted @ 2014-06-15 13:15 jseven 阅读(169) 评论(0) 推荐(0) 编辑
摘要: 1、新建MR工程 2、设置工程名字 3、finish 4、使用navicate浏览,使用package太长了。 5、将hadoop例子下的WordCount复制过来,当然我自己打的,重新熟悉一下。 改改包名即可。 一个示例完成。6、linux下准备数据文件 >hadoop dfs -m... 阅读全文
posted @ 2014-06-15 10:13 jseven 阅读(267) 评论(0) 推荐(0) 编辑
摘要: 1、复制linux下已配置安装好的hadoop目录进入windows, 同时修改hadoo-env.sh文件的JAVA_HOME为windows下的jdk目录。2、复制hadoop-eclipse-1.2.jar插件进入myeclipse文件夹下dropins下 下载:我的文件下有一个以hado... 阅读全文
posted @ 2014-06-15 09:43 jseven 阅读(534) 评论(0) 推荐(0) 编辑
摘要: 1. 下面哪个程序负责HDFS数据存储。 a) NameNode b) Jobtracker c) Datanode √(完成数据存储) d) secondaryNameNode e) tasktracker 2. HDfS中的block默认保存几份? a) 3份√(hdfs-si... 阅读全文
posted @ 2014-06-14 21:53 jseven 阅读(4055) 评论(0) 推荐(0) 编辑