pig实例一
这里我们给出一个学生表(学号,姓名,性别,年龄,所在系),其中含有如下几条记录并保存在/home/hadoop/ziliao/student.txt文件:
201000101:李勇:男:20:计算机软件与理论
201000102:王丽:女:19:计算机软件与理论
201000103:刘花:女:18:计算机应用技术
201000104:李肖:男:19:计算机系统结构
201000105:吴达:男:19:计算机系统结构
201000106:滑可:男:19:计算机系统结构
它们所对应的数据类型如下所示:
Student(sno:chararray, sname:chararray, ssex:chararray, sage:int, sdept:chararray)
我们将在不同的运行方式下取出各个学生的姓名和年龄两个字段,执行结果如下:
李勇 20
王丽 19
刘花 18
李肖 19
吴达 19
滑可 19
1、local模式
a、grunt shell
hadoop@ubuntu:~$ pig -x local --加载数据(注意“=”左右两边要空格) grunt>> A = load '/home/hadoop/ziliao/student.txt' using PigStorage(':') as (sno:chararray, sname:chararray, ssex:chararray, sage:int, sdept:chararray); --从A中选出Student相应的字段(注意“=”左右两边要空格) grunt>> B = foreach A generate sname, sage; --将B中的内容输出到屏幕上 grunt>> dump B; --将B的内容输出到本地文件中 grunt>> store B into '/home/hadoop/ziliao/result.txt'; --查看本地文件内容,没有'' grunt>> cat /home/hadoop/ziliao/result.txt;
b、脚本文件
脚本文件实质上是pig命令的批处理文件。
我们给出的script.pig文件包含以下内容:
A = load '/home/hadoop/ziliao/student.txt' using PigStorage(':') as (sno:chararray, sname:chararray, ssex:chararray, sage:int, sdept:chararray); B = foreach A generate sname, sage; dump B; store B into '/home/hadoop/ziliao/result.txt';
然后通过执行pig -x local script.pig即可。
想看执行结果,可执行如下命令查看:
grunt>> cat /home/hadoop/ziliao/result.txt;
c、嵌入式程序
package com.ljq.pig; import java.io.IOException; import org.apache.pig.PigServer; public class PigLocal { public static void main(String[] args) { try { PigServer server = new PigServer("local"); //Local模式 //PigServer server = new PigServer("mapreduce"); //MapReduce模式 run(server); } catch (Exception e) { e.printStackTrace(); } } private static void run(PigServer server) throws IOException{ server.registerQuery("A = load '/home/hadoop/ziliao/student.txt' using PigStorage(':') as (sno:chararray, sname:chararray, ssex:chararray, sage:int, sdept:chararray);"); server.registerQuery("B = foreach A generate sname, sage;"); server.store("B", "/home/hadoop/ziliao/result.txt"); //home/hadoop/ziliao/result.txt存在要先删除,不然执行会报异常。 } }
2、MapReduce模式
就是把/home/hadoop/ziliao/student.txt文件放到hdfs中操作,其他操作跟local模式一样,也分为如下三种操作方式:
a.grunt shell
hadoop@ubuntu:~$ pig
b.脚本文件
pig script.pig
c.嵌入式程序
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· 写一个简单的SQL生成工具
· AI 智能体引爆开源社区「GitHub 热点速览」
· C#/.NET/.NET Core技术前沿周刊 | 第 29 期(2025年3.1-3.9)
2011-03-12 Android之Intent探究