2025.1.25(寒假第十八天)
Spark SQL 基本操作
学习记录:
学习实验题目中的“Spark SQL 基本操作”部分。
将 JSON 数据保存为 employee.json 文件,并加载到 Spark SQL 中。
// 创建 SparkSession
val spark = SparkSession.builder()
.appName("Spark SQL Basic Operations")
.master("local[*]")
.getOrCreate()
// 读取 JSON 文件
val employeeDF = spark.read.json("file:///path/to/employee.json")
// (1) 查询所有数据
employeeDF.show()
// (2) 查询所有数据,并去除重复的数据
employeeDF.dropDuplicates().show()
// (3) 查询所有数据,打印时去除 id 字段
employeeDF.select("name", "age").show()
// (4) 筛选出 age > 30 的记录
employeeDF.filter("age > 30").show()
// (5) 将数据按 age 分组
employeeDF.groupBy("age").count().show()
// (6) 将数据按 name 升序排列
employeeDF.orderBy("name").show()
// (7) 取出前 3 行数据
employeeDF.limit(3).show()
// (8) 查询所有记录的 name 列,并为其取别名为 username
employeeDF.select($"name".alias("username")).show()
// (9) 查询年龄 age 的平均值
employeeDF.select(avg("age")).show()
// (10) 查询年龄 age 的最小值
employeeDF.select(min("age")).show()
// 停止 SparkSession
spark.stop()
实验总结:
掌握 Spark SQL 的基本操作,包括查询、过滤、排序、分组和聚合函数。
理解如何通过 DataFrame 操作数据。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 地球OL攻略 —— 某应届生求职总结
· 周边上新:园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源!
· 提示词工程——AI应用必不可少的技术
· .NET周刊【3月第1期 2025-03-02】
2024-01-25 2024.1.25