SQL方式
需要将DataFrame注册成为一张临时表,并给临时表起名字,通过SQL语句查询分析DataFrame中数据
局部临时表、全局临时表
[注意]:
--1 如果我们注册的是全局表,查询全局表的时候,必须在表名前加上一个数据库的名字global_temp
val frame = session.sql("select sex, count(*) as num from global_temp.student group by sex")
--2 每次SQL操作完成都会返回一个新的DataFrame,这个DataFrame中就是我们处理分析完成的数据
--3 如果我们DataFrame是从Hive中读取的数据,也可以使用这种方式去操作
区别
局部临时表
全局临时表
方法字段
createTempViewdataFrame.createTempView("student")
createOrReplaceGlobalTempViewdataFrame.createOrReplaceGlobalTempView("student")
作用域
作用于某个Spark应用程序的所有SparkSession会话
作用于某个特定的SparkSession会话如果同一个应用中不同的session需要重用一个临时表,那么不妨将该临时表注册为全局临时表,可以避免多余的IO,提高系统的执行效率,但是如果只是在某个session中使用,只需要注册局部临时表,可以避免不必要的内存占用
使用场景
局部临时表是和SparkSession挂钩的,SparkSession一旦停止,临时表就无法使用了
全局临时表是和Spark Application(SparkContext)挂钩的,只有当Spark应用程序停止了,全局表才无法访问
DSL方式
展示dataFrame的结构
dataFrame.printSchema()
数据展示
println ("-----------------------数据展示1开始-------------------------" )
dataFrame .show ()
println ("-----------------------数据展示1结束-------------------------" )
println ("-----------------------数据展示2开始-------------------------" )
val dataFrame1 = dataFrame .groupBy ("sex" ) .agg (Map("sex" -> "count" ) ).select ("*" )
dataFrame1 .show ()
println ("-----------------------数据展示2结束-------------------------" )
println ("-----------------------数据展示3开始-------------------------" )
val dataFrame2 = dataFrame .groupBy ("name" , "age" , "sex" ) .agg (Map("age" -> "max" , "age" -> "min" , "age" -> "avg" , "*" -> "count" ) ).select ("*" )
dataFrame2 .show ()
println ("-----------------------数据展示3结束-------------------------" )
完整代码
package SparkSQL.DataFreamCreate.optdataframe
import org.apache.spark.SparkConf
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{DataFrame, SparkSession}
import scala.beans.BeanProperty
object DSLOper {
def main(args: Array[String]): Unit = {
val conf = new SparkConf().setAppName("dataFrameCreate" ).setMaster("local[*]" )
val sparkSession = SparkSession.builder().config(conf).getOrCreate()
val seq:Seq[Student] = Array(Student("zs" ,20 ,"男" ),Student("ls" ,21 ,"女" ),Student("ww" ,22 ,"男" ))
val rdd:RDD[Student] = sparkSession.sparkContext.makeRDD(seq)
val dataFrame:DataFrame = sparkSession.createDataFrame(rdd,classOf[Student])
println("-----------------------展示结构开始-------------------------" )
dataFrame.printSchema()
println("-----------------------展示结构结束-------------------------" )
println("-----------------------数据展示1开始-------------------------" )
dataFrame.show()
println("-----------------------数据展示1结束-------------------------" )
println("-----------------------数据展示2开始-------------------------" )
val dataFrame1 = dataFrame.groupBy("sex" ).agg(Map("sex" -> "count" )).select("*" )
dataFrame1.show()
println("-----------------------数据展示2结束-------------------------" )
println("-----------------------数据展示3开始-------------------------" )
val dataFrame2 = dataFrame.groupBy("name" , "age" , "sex" ).agg(Map("age" -> "max" , "age" -> "min" , "age" -> "avg" , "*" -> "count" )).select("*" )
dataFrame2.show()
println("-----------------------数据展示3结束-------------------------" )
}
}
case class Student (@BeanProperty var name:String,@BeanProperty var age:Int ,@BeanProperty var sex:String)
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 三行代码完成国际化适配,妙~啊~
· .NET Core 中如何实现缓存的预热?