spark-sql导出数据为csv

在spark-sql中进行数据分析之后，对数据进行导出，会被导出到hdfs

首先进入spark本地模式

/export/server/spark/bin/spark-shell

数据存储到dataframe

val df = spark.sql("SELECT * FROM table_name WHERE condition")

df.write.format("csv").option("header", "true").save("path_to_file")

其中，format("csv")表示输出文件格式为csv，option("header", "true")表示在输出文件中包含表头，save("path_to_file")指定输出文件的路径。但是该方法数据不在一个文件中。

下面这个会将数据存到一个文件中

val df = spark.sql("SELECT * FROM my_database.my_table WHERE ...")
df.coalesce(1).write.csv("/path/to/output/csv")

posted on 2023-03-06 18:45 跨越&尘世阅读(1052) 评论(0) 编辑收藏举报