pyspark 解析kafka数组结构数据

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
from pyspark.sql.functions import get_json_object, col,from_unixtime, instr, length, regexp_replace, explode, from_json
from pyspark.sql.types import * <br># 定义数组结构
schema = ArrayType(StructType([
        StructField("home", StringType()),
        StructField("room", StringType()),
        StructField("operation", StringType()),
        StructField("time", StringType())
    ]))
 
# kafka = kafka.select(col("value").cast("string").alias("data"))<br># 使用from_json解析 再使用explode将数组结构拆分成多行数据
kafka = kafka.select(from_json(col("value").cast("string"), schema).alias("data")
                     ).select(explode("data").alias("data")
                              ).selectExpr("data.home","data.room","data.operation",
                                           "data.time"
                                           )

  

posted @   Young_Mo  阅读(11)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· winform 绘制太阳,地球,月球 运作规律
· 上周热点回顾(3.3-3.9)
点击右上角即可分享
微信分享提示