导航

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

统计

随笔 - 105
文章 - 0
评论 - 53
阅读 - 39万

Hive JSON数据处理的一点探索

背景

JSON是一种轻量级的数据格式，结构灵活，支持嵌套，非常易于人的阅读和编写，而且主流的编程语言都提供相应的框架或类库支持与JSON数据的交互，因此大量的系统使用JSON作为日志存储格式。

使用Hive分析数据（均指文本）之前，首先需要为待分析的数据建立一张数据表，然后才可以使用Hive SQL分析这张数据表的数据。这就涉及到我们如何把一行文本数据映射为数据表的列，常规的方式有两种：

（1）分隔符

（2）正则表达式

但是Hive本身并没有针对JSON数据的解析提供原生的支持方式，仅提供了两个内建函数：get_json_object和json_tuple，用于解析某一列的JSON数据。究其原因主要是JSON格式的数据太过灵活，尤其是存在普通数据与JSON数据结合使用、多层嵌套、JSON对象和JSON数组对象结合使用的场景下，常规的数据解析方式变得捉襟见肘。这也是本文探讨的重点所在。

方案

1. 普通数据与JSON数据结合使用，其中JSON数据不存在多层嵌套、JSON对象和JSON数组对象结合使用的情况；

可以认为上述数据以“&_”分隔，data部分数据格式为JSON，针对此情况，我们选用正则的方式为其建立数据表，如下：

验证数据表解析数据是否正确，

可见三行数据都正确的被解析，但是我们没有办法直接将“data”的slice_id、status映射为列，我们只能通过get_json_object或json_tuple间接的分析数据。

因为get_json_object在解析多列数据的场景下存在性能问题，详情可参考https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-json_tuple，因此这里我们仅讨论json_tuple。

实际是我们想要的效果无非是将“data”部分的数据也映射为列，注意到“data”部分的数据全部为key/value的简单非嵌套形式，因此我们可以这么做：

通过Lateral View（https://cwiki.apache.org/confluence/display/Hive/LanguageManual+LateralView）的方式我们借助json_tuple的方式得到了全部的数据列。很显然如果让我们的用户每次分析数据时都要面对如此复杂的SQL语句编写，这样的方式是很不友好的，可以通过创建视图的方式将这个过程隐藏。

视图mytable_view帮助我们隐藏了JSON数据与数据列的映射过程，用户分析数据时仅仅需要操纵一个标准列格式的数据视图即可。

2. JSON数组对象；

get_json_object和json_tuple仅仅能够处理JSON对象，而没有办法处理JSON数组对象，如果我们需要解析的是下述的数据：

Hive内建的功能是没有办法支持这样的数据解析的，因此我们需要自己扩展。

json_tuple能够处理普通的JSON对象，因此我们要做的只是扩展出一个json_array，可以将JSON数组对象转换为一个JSON对象数组即可。

注意：这里讨论的JSON对象、JSON数组对象、JSON对象数组元素均为JSON字符串。

2.1 创建json_array

扩展UDF需要继承GenericUDF，一般情况下需要重写两个方法：initialize、evaluate。

initialize核心逻辑如下：

（1）参数个数是否为1，这个参数即为JSON数组对象的字符串；

（2）定义参数的转换器，用于后期获取参数值；

（3）定义UDF返回结果类型：字符串数组；

evaluate核心逻辑如下：

（1）判断参数个数是否为1，参数值是否为空，如果参数合法，则获取传入的JSON数组对象字符串jsonArrayStr；

（2）如果jsonArrayStr为空字符串，则返回null，否则继续下一步；

（3）使用Gson解析jsonArrayStr，如果解析失败，返回null；如果解析成功，需要作出如下判断：

a. 如果是JSON数组对象，则继续下一步；

b. 如果不是JSON数组对象，则返回null；

（4）将JSON数组对象的各个“元素”的字符串形式存入result并返回（需要注意不同的“元素”类型获取字符串的方式不同，此处我们忽略null）。

我们将该类的class文件以及Gson打包为一个独立的jar，存入HDFS，然后通过Hive创建Permanent Function，如下：

这样我们就可以开始在Hive SQL中使用函数json_array。

2.2 使用json_array

（1）建立数据表；

因为日志数据为JSON数组字符串，所以我们建立的数据表只能为一列，如下：

（2）使用json_array映射列；

每一个JSON数组对象包含两个JSON对象（可以数目不一样），每一个JSON对象包含如下属性：ts、id、log、ip，我们首先映射这些列，如下：

第一个Lateral View将JSON数组对象（字符串）转换为JSON对象数组（字符串），并通过explode将其转换为一个个JSON对象（字符串）；

第二个Lateral View将JSON对象（字符串）“映射”为数据列。

我们还可以更进一步，利用同样的方法将“ip”列进行分解，如下：

我们还可以通过前面讲述过的创建视图的方法将上述映射过程隐藏，在此不再赘述。

总结

通过Hive内建函数json_tuple以及我们自己扩展的json_array，两者相互组合可以非常灵活的完成JSON数据的“映射”，并且可以通过创建视图的方式将“映射”过程隐藏。

同时我们也需要注意到，JSON本身是一种非常灵活的数据格式，但实际应用中也不能滥用，如：避免多层嵌套、数据结构不统一等，否则使用Hive分析JSON日志数据时会比较繁琐。

posted on 2015-08-13 19:47 非著名野生程序员阅读(15600) 评论(2) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

编辑推荐：
· 10年+ .NET Coder 心语，封装的思维：从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热？
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列：向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用

阅读排行：
· TypeScript + Deepseek 打造卜卦网站：技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗？
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维：从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句：使用策略模式优化代码结构

公告

昵称：非著名野生程序员
园龄： 14年11个月
粉丝： 79
关注： 0
+加关注

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:Hive SQL运行状态监控（HiveSQLMonitor）
@DATA·CN 大佬，您按照这个方式实现了吗...
--Angel6688
2. Re:若依（RuoYi ）权限管理设计
数据权限，ruoyi采用的是sql join的形式。感觉不是很好。侵入性很强。我采用注解判断参数来拦截越权访问。实现在该项目：欢迎大佬点评指正。...
--CoderV的进阶笔记
3. Re:若依（RuoYi ）权限管理设计
666
--牛头人363
4. Re:微信小程序使用 ECharts
已阅
--哎呦你可棒棒了
5. Re:若依（RuoYi ）权限管理设计
收藏了。
--清风如你