常见应用 - SparkSql 之 Column类
1.什么是Column对象
Column 表示了 Dataset 中的一个列, 并且可以持有一个表达式, 这个表达式作用于每一条数据, 对每条数据都生成一个值
2.Column对象如何创建
(1)’
单引号 ’ 在 Scala 中是一个特殊的符号, 通过 ’ 会生成一个 Symbol 对象, Symbol 对象可以理解为是一个字符串的变种, 但是比字符串的效率高很多, 在 Spark 中, 对 Scala 中的 Symbol 对象做了隐式转换, 转换为一个 ColumnName 对象, ColumnName 是 Column 的子类, 所以在 Spark 中可以如下去选中一个列
val spark = SparkSession.builder().appName("column").master("local[6]").getOrCreate()
import spark.implicits._
val personDF = Seq(Person("zhangsan", 12), Person("zhangsan", 8), Person("lisi", 15)).toDS()
val c1: Symbol = 'name
(2)$
同理, $ 符号也是一个隐式转换, 同样通过 spark.implicits 导入, 通过 $ 可以生成一个 Column 对象
val spark = SparkSession.builder().appName("column").master("local[6]").getOrCreate()
import spark.implicits._
val personDF = Seq(Person("zhangsan", 12), Person("zhangsan", 8), Person("lisi", 15)).toDS()
val c2: ColumnName = $"name"
(3)col
SparkSQL 提供了一系列的函数, 可以通过函数实现很多功能, 在后面课程中会进行详细介绍, 这些函数中有两个可以帮助我们创建 Column 对象, 一个是 col, 另外一个是 column
val spark = SparkSession.builder().appName("column").master("local[6]").getOrCreate()
import org.apache.spark.sql.functions._
val personDF = Seq(Person("zhangsan", 12), Person("zhangsan", 8), Person("lisi", 15)).toDS()
val c3: sql.Column = col("name")
(4)column
val spark = SparkSession.builder().appName("column").master("local[6]").getOrCreate()
import org.apache.spark.sql.functions._
val personDF = Seq(Person("zhangsan", 12), Person("zhangsan", 8), Person("lisi", 15)).toDS()
val c4: sql.Column = column("name")
(5)Dataset.col
面的 Column 对象创建方式所创建的 Column 对象都是 Free 的, 也就是没有绑定任何 Dataset, 所以可以作用于任何 Dataset, 同时, 也可以通过 Dataset 的 col 方法选择一个列, 但是这个 Column 是绑定了这个 Dataset 的, 所以只能用于创建其的 Dataset 上
val spark = SparkSession.builder().appName("column").master("local[6]").getOrCreate()
val personDF = Seq(Person("zhangsan", 12), Person("zhangsan", 8), Person("lisi", 15)).toDS()
val c5: sql.Column = personDF.col("name")
(6)Dataset.apply
可以通过 Dataset 对象的 apply 方法来获取一个关联此 Dataset 的 Column 对象
ds(“name”)
ds.apply(“name”) 上下两个是一样的,ds(“name”)其实是ds.apply(“name”)简写版
val spark = SparkSession.builder().appName("column").master("local[6]").getOrCreate()
val personDF = Seq(Person("zhangsan", 12), Person("zhangsan", 8), Person("lisi", 15)).toDS()
val c6: sql.Column = personDF.apply("name")
apply 的调用有一个简写形式
val c7: sql.Column = personDF("name")
3.别名和转换
(1)as[type]
as 方法有两个用法, 通过 as[Type] 的形式可以将一个列中数据的类型转为 Type 类型
personDF.select(col("age").as[Long]).show()
(2)as(name)
通过 as(name) 的形式使用 as 方法可以为列创建别名
personDF.select(col("age").as("age_new")).show()
4.添加列
(1)withColumn
通过 Column 在添加一个新的列时候修改 Column 所代表的列的数据
personDF.withColumn("double_age", 'age * 2).show()
5.操作
(1)like
通过 Column 的 API, 可以轻松实现 SQL 语句中 LIKE 的模糊查询功能
personDF.filter('name like "%zhang%").show() //%通配符
(2)isin
通过 Column 的 API, 可以轻松实现 SQL 语句中 ISIN 的枚举判断功能
personDF.filter('name isin ("hello", "zhangsan")).show()//在name字段下我只想看hello,zhangsan的信息
(3)sort
在排序的时候, 可以通过 Column 的 API 实现正反序
personDF.sort('age.asc).show()
personDF.sort('age.desc).show()
(4)lit()
使用lit()增加常量(固定值)
scala> df.withColumn("sinurl", lit(12)).show +----+----+----+------+ | id|rsrp|rsrq|sinurl| +----+----+----+------+ |key1| 23| 1.0| 12| |key1| 10| 2.0| 12| +----+----+----+------+ scala> df.withColumn("type", lit("mr")).show +----+----+----+----+ | id|rsrp|rsrq|type| +----+----+----+----+ |key1| 23| 1.0| mr| |key1| 10| 2.0| mr| +----+----+----+----+
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· Docker 太简单,K8s 太复杂?w7panel 让容器管理更轻松!