2.9每日总结

学习spark就绕不开spark sql,今天我就学习了spark的数据库操作：

创建 SparkSession：
- 在 Spark 中使用 Spark SQL 时，首先需要创建一个 SparkSession 对象，它是 Spark SQL 的入口点。可以通过 SparkSession.builder().appName("example").getOrCreate() 来创建 SparkSession。
读取数据：
- 可以使用 SparkSession 对象的 read 方法来读取外部数据源，如文本文件、JSON 文件、Parquet 文件、关系型数据库等。例如，可以使用 spark.read.csv("path/to/file.csv") 来读取 CSV 文件。
创建 DataFrame：
- 通过读取数据源或将已有的 RDD 转换为 DataFrame，可以创建一个包含结构化数据的 DataFrame 对象。DataFrame 提供了丰富的 API 来进行数据操作和分析。
执行 SQL 查询：
- 可以通过 SparkSession 对象的 sql 方法执行 SQL 查询。例如，可以使用 spark.sql("SELECT * FROM table") 来查询 DataFrame 中的数据。
DataFrame 操作：
- DataFrame 提供了多种操作方法来处理数据，如选择列、过滤数据、分组聚合等。常见的操作包括 select()、filter()、groupBy()、agg() 等。
注册临时视图：
- 可以通过调用 DataFrame 对象的 createOrReplaceTempView 方法将 DataFrame 注册为一个临时视图，从而可以通过 SQL 查询来操作该视图。
UDF（User-Defined Functions）：
- 可以通过注册 UDF 来扩展 Spark SQL 的功能。UDF 允许用户自定义函数并在 SQL 查询中使用。可以通过 spark.udf.register("my_udf", myFunction) 来注册 UDF。
优化器和执行计划：
- Spark SQL 使用 Catalyst 优化器来对 SQL 查询进行优化，生成最优的执行计划。可以通过 explain() 方法查看执行计划，帮助优化查询性能。
DataFrame 写入：
- 可以使用 DataFrame 对象的 write 方法将数据写入外部数据源，如保存为 Parquet 文件、CSV 文件等。例如，可以使用 df.write.parquet("path/to/output") 将 DataFrame 写入为 Parquet 文件。