2025.1.25(寒假第十八天)

Spark SQL 基本操作
学习记录:
学习实验题目中的“Spark SQL 基本操作”部分。
将 JSON 数据保存为 employee.json 文件,并加载到 Spark SQL 中。

// 创建 SparkSession
val spark = SparkSession.builder()
.appName("Spark SQL Basic Operations")
.master("local[*]")
.getOrCreate()

// 读取 JSON 文件
val employeeDF = spark.read.json("file:///path/to/employee.json")

// (1) 查询所有数据
employeeDF.show()

// (2) 查询所有数据,并去除重复的数据
employeeDF.dropDuplicates().show()

// (3) 查询所有数据,打印时去除 id 字段
employeeDF.select("name", "age").show()

// (4) 筛选出 age > 30 的记录
employeeDF.filter("age > 30").show()

// (5) 将数据按 age 分组
employeeDF.groupBy("age").count().show()

// (6) 将数据按 name 升序排列
employeeDF.orderBy("name").show()

// (7) 取出前 3 行数据
employeeDF.limit(3).show()

// (8) 查询所有记录的 name 列,并为其取别名为 username
employeeDF.select($"name".alias("username")).show()

// (9) 查询年龄 age 的平均值
employeeDF.select(avg("age")).show()

// (10) 查询年龄 age 的最小值
employeeDF.select(min("age")).show()

// 停止 SparkSession
spark.stop()
实验总结:
掌握 Spark SQL 的基本操作,包括查询、过滤、排序、分组和聚合函数。
理解如何通过 DataFrame 操作数据。

posted @   kuku睡  阅读(2)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 地球OL攻略 —— 某应届生求职总结
· 周边上新:园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源!
· 提示词工程——AI应用必不可少的技术
· .NET周刊【3月第1期 2025-03-02】
历史上的今天:
2024-01-25 2024.1.25
点击右上角即可分享
微信分享提示