Pig简介
What is Pig?
Pig 是一种探索大规模数据集的脚本语言,为了填补MapReduce开发周期长的缺点而产生。Pig是为批处理而设计的。如果只想查询一个大数据集中的一小部分数据,Pig的实现不会很好,因为它要扫描整个数据集或其中很大一部分。
Pig包括两部分:描述数据流的语言,Pig Latin;运行Pig Latin的执行环境。
安装与运行Pig
下载:http://apache.fayea.com/apache-mirror/pig/pig-0.12.0/,下载当前最新版本。
解压:tar -xvf pig-0.12.0.tar.gz
移动:mv pig-0.12.0 /opt/
设置环境变量:
sudo vim /etc/profile
末尾添加:
export PIG_INSTALL=/opt/pig-0.12.0
export PATH=$PATH:$PIG_INSTALL/bin
export PIG_CLASSPATH=/opt/hadoop-1.2.1/conf
重新载入profile:
source /etc/profile
检测是否安装成功:
pig -help