随笔 - 1357  文章 - 0  评论 - 1104  阅读 - 1941万

pig实例一

这里我们给出一个学生表(学号,姓名,性别,年龄,所在系),其中含有如下几条记录并保存在/home/hadoop/ziliao/student.txt文件:

201000101:李勇:男:20:计算机软件与理论
201000102:王丽:女:19:计算机软件与理论
201000103:刘花:女:18:计算机应用技术
201000104:李肖:男:19:计算机系统结构
201000105:吴达:男:19:计算机系统结构
201000106:滑可:男:19:计算机系统结构

它们所对应的数据类型如下所示:
Student(sno:chararray, sname:chararray, ssex:chararray, sage:int, sdept:chararray)
我们将在不同的运行方式下取出各个学生的姓名和年龄两个字段,执行结果如下:

李勇 20 
王丽 19 
刘花 18 
李肖 19 
吴达 19 
滑可 19

1、local模式
a、grunt shell

复制代码
hadoop@ubuntu:~$ pig -x local
--加载数据(注意“=”左右两边要空格)
grunt>> A = load '/home/hadoop/ziliao/student.txt' using PigStorage(':') as (sno:chararray, sname:chararray, ssex:chararray, sage:int, sdept:chararray);
--从A中选出Student相应的字段(注意“=”左右两边要空格)
grunt>> B = foreach A generate sname, sage;
--将B中的内容输出到屏幕上
grunt>> dump B;
--将B的内容输出到本地文件中
grunt>> store B into '/home/hadoop/ziliao/result.txt';
--查看本地文件内容,没有''
grunt>> cat /home/hadoop/ziliao/result.txt;
复制代码

b、脚本文件
脚本文件实质上是pig命令的批处理文件。
我们给出的script.pig文件包含以下内容:

A = load '/home/hadoop/ziliao/student.txt' using PigStorage(':') as (sno:chararray, sname:chararray, ssex:chararray, sage:int, sdept:chararray);
B = foreach A generate sname, sage;
dump B;
store B into '/home/hadoop/ziliao/result.txt';

然后通过执行pig -x local script.pig即可。
想看执行结果,可执行如下命令查看:

grunt>> cat /home/hadoop/ziliao/result.txt;

c、嵌入式程序

复制代码
package com.ljq.pig;

import java.io.IOException;

import org.apache.pig.PigServer;

public class PigLocal {

        public static void main(String[] args) {
                try {
                        PigServer  server = new PigServer("local"); //Local模式
                        //PigServer  server = new PigServer("mapreduce"); //MapReduce模式
                        run(server);
                } catch (Exception e) {
                        e.printStackTrace();
                }  
                
        }
        
        private static void run(PigServer server) throws IOException{
                server.registerQuery("A = load '/home/hadoop/ziliao/student.txt' using PigStorage(':') as (sno:chararray, sname:chararray, ssex:chararray, sage:int, sdept:chararray);");
                server.registerQuery("B = foreach A generate sname, sage;");
                server.store("B", "/home/hadoop/ziliao/result.txt"); //home/hadoop/ziliao/result.txt存在要先删除,不然执行会报异常。
        }
}
复制代码

2、MapReduce模式
就是把/home/hadoop/ziliao/student.txt文件放到hdfs中操作,其他操作跟local模式一样,也分为如下三种操作方式:
a.grunt shell

hadoop@ubuntu:~$ pig  

b.脚本文件

pig script.pig
c.嵌入式程序


 

posted on   Ruthless  阅读(2437)  评论(0编辑  收藏  举报
编辑推荐:
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· 写一个简单的SQL生成工具
· AI 智能体引爆开源社区「GitHub 热点速览」
· C#/.NET/.NET Core技术前沿周刊 | 第 29 期(2025年3.1-3.9)
历史上的今天:
2011-03-12 Android之Intent探究
< 2013年3月 >
24 25 26 27 28 1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31 1 2 3 4 5 6

点击右上角即可分享
微信分享提示