大数据(十) - Pig

Pig是什么
        Hadoop上的数据流运行引擎(由Yahoo。开源)
                利用HDFS存储数据
                利用MapReduce处理数据
        使用Pig Latin语言表达数据流
                Pig Latin是一种新的数据流语言
                Pig将Pig Latin语句转化为MapReduce作业
                Pig Latin比MapReduce程序更易编写
        直接产生动机:让MapReduce用起来更简单
                与Hive一致

Pig与Hive异同
        同样点
                执行在Hadoop之上。
                设计动机是为用户提供一种更简单的Hadoop上数据分析方式;
                解决同样问题的两个工具(yahoo!vs facebook)。
        不同点
                Hive要求待处理数据必须有Schema。而Pig则无此要求;
                Hive有Server须要安装。Pig无Server不须要安装。
                编程语言不同。SQL与Pig Latin
                        SQL:得到什么样的结果,Pig Latin:怎样处理数据
                        SQL:过程化语言。Pig Latin:数据流语言

执行Pig Latin
        本地模式
                pig_path/bin/pig –x local wordount.pig
        集群模式
                PIG_CLASSPATH=hadoop_conf_dir pig_path/bin/pig wordcount.pig
        其它使用方式
                pig -e fs –copyFromLocal local_path hdfs_path
                pig hdfs://nn.mydomain.com:9020/myscripts/script.pig
                pig –Dmapreduce.task.profile=true wordount.pig
                pig –P myproperty.properties wordcount.pig

posted on   wgwyanfs  阅读(126)  评论(0编辑  收藏  举报

导航

< 2025年2月 >
26 27 28 29 30 31 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 1
2 3 4 5 6 7 8
点击右上角即可分享
微信分享提示