Spark Session
package com.shujia.spark.sql import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession} object Demo1SparkSession { def main(args: Array[String]): Unit = { /** * SparkSession: spark2.0之后统一的入口,可以代替sparkContext和SqlContext * */ val spark: SparkSession = SparkSession .builder() .master("local") .appName("spark") .config("spark.sql.shuffle.partitions", "1") //spark sql shuffle之后df的分区数据,如果在集群中运行,默认是200 .getOrCreate() //导入spark 相关的隐式转换 import spark.implicits._ //读取json格式数据 val studentDF: DataFrame = spark.read.json("data/students.json") //查看数据 studentDF.show() //查看表结构 studentDF.printSchema() //选择 studentDF.select("name", "age").show() //$ 获取列对象,可以对列进行计算 //as 取别名 studentDF.select($"name", $"age" + 1 as "age").show() //DSL语句(类sql) //过滤 studentDF.filter($"age" > 23).show() //分组统计 studentDF.groupBy($"clazz").count().show() //创建临时视图 studentDF.createOrReplaceTempView("student") //编写sql val clazzNumDF: DataFrame = spark.sql("select clazz,count(1) from student group by clazz") clazzNumDF.show() /** * sql 执行顺序 * from --> join --> on ---> where ---> group by --> having --> select --> order by --> limit * */ //保存数据 clazzNumDF .write .mode(SaveMode.Overwrite) .csv("data/json") } }
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· DeepSeek在M芯片Mac上本地化部署
· 葡萄城 AI 搜索升级:DeepSeek 加持,客户体验更智能