Spark Session

复制代码
package com.shujia.spark.sql

import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}

object Demo1SparkSession {
  def main(args: Array[String]): Unit = {

    /**
      * SparkSession: spark2.0之后统一的入口,可以代替sparkContext和SqlContext
      *
      */

    val spark: SparkSession = SparkSession
      .builder()
      .master("local")
      .appName("spark")
      .config("spark.sql.shuffle.partitions", "1") //spark sql shuffle之后df的分区数据,如果在集群中运行,默认是200
      .getOrCreate()

    //导入spark 相关的隐式转换
    import spark.implicits._

    //读取json格式数据
    val studentDF: DataFrame = spark.read.json("data/students.json")

    //查看数据
    studentDF.show()
    //查看表结构
    studentDF.printSchema()

    //选择
    studentDF.select("name", "age").show()

    //$ 获取列对象,可以对列进行计算
    //as 取别名
    studentDF.select($"name", $"age" + 1 as "age").show() //DSL语句(类sql)

    //过滤
    studentDF.filter($"age" > 23).show()

    //分组统计
    studentDF.groupBy($"clazz").count().show()

    //创建临时视图
    studentDF.createOrReplaceTempView("student")
    //编写sql
    val clazzNumDF: DataFrame = spark.sql("select clazz,count(1) from student group by clazz")

    clazzNumDF.show()

    /**
      * sql 执行顺序
      * from  --> join --> on ---> where ---> group by --> having --> select  --> order by --> limit
      *
      */

    //保存数据
    clazzNumDF
      .write
      .mode(SaveMode.Overwrite)
      .csv("data/json")



  }
}
复制代码

 

posted @   坤坤无敌  阅读(111)  评论(0编辑  收藏  举报
编辑推荐:
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
阅读排行:
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· DeepSeek在M芯片Mac上本地化部署
· 葡萄城 AI 搜索升级:DeepSeek 加持,客户体验更智能
点击右上角即可分享
微信分享提示