摘要: 第1章 引言1.1 编写目的介绍pig,一个不得不说的hadoop的扩展。1.2 什么是pigPig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。1.3 pig的特点1、专注于于大量数据集分析(ad-hoc analysis , ad-hoc 代表:a solution that has been custom designed for a specific problem ); 2、运行在集群的 阅读全文
posted @ 2012-11-30 17:02 蜗牛123 阅读(420) 评论(0) 推荐(0) 编辑
摘要: 进入vi的命令 vi filename :打开或新建文件,并将光标置于第一行首 vi +n filename :打开文件,并将光标置于第n行首 vi + filename :打开文件,并将光标置于最后一行首 vi +/pattern filename:打开文件,并将光标置于第一个与pattern匹配的串处 vi -r filename :在上次正用vi编辑时发生系统崩溃,恢复filename vi filename....filename :打开多个文件,依次进行编辑 移动光标类命令h :光标左移一个字符 l :光标右移一个字符 space:光标右移一个字符 Backspace:光标左移一个字 阅读全文
posted @ 2012-11-30 17:01 蜗牛123 阅读(146) 评论(0) 推荐(0) 编辑
摘要: Pig是yahoo捐献给apache的一个项目,它是SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。这是Yahoo开发的又一个克隆Google的项目:Sawzall。Pig是一个客户端应用程序,就算你要在Hadoop集群上运行Pig,也不需要在集群上装额外的东西。Pig的安装是灰常的简单的:1、安装JAVA6(在Windows的话要装Cygwin),设置好JAVA_HOME。% export JAVA_HOME=/home/tom/jdk1.62、到http://hadoop.ap 阅读全文
posted @ 2012-11-30 16:42 蜗牛123 阅读(235) 评论(0) 推荐(0) 编辑
摘要: 只要谈论大数据,就一定会提到Hadoop。短短的几年时间,Apache Hadoop已经迅速成长为首选的、适用于非结构化数据的大数据分析解决方案。最初,Hadoop项目是由原Yahoo的Doug Cutting创建的,而"Hadoop"这个名字也是来自于Doug Cutting的孩子的玩具的名字,一个可爱的黄色小象。 Hadoop主要由HDFS、MapReduce和HBase三部分组成,是一个能够便捷的开发和运行处理大数据的开源软件平台,最大的特点是其极大的扩展性和良好的伸缩性,可以利用高性价比的X86服务器组成高性能集群,当数据量增加到无法负荷的时候,只需增加相应节点即可 阅读全文
posted @ 2012-11-30 13:23 蜗牛123 阅读(225) 评论(0) 推荐(0) 编辑
摘要: Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。 阅读全文
posted @ 2012-11-30 12:20 蜗牛123 阅读(201) 评论(0) 推荐(0) 编辑