摘要: spark_sql_shuffle_partitions设置executor的partitions个数,注意这个参数只对SparkSQL有用 但是有的文章说这是并行度,一个partitions相当于一个task? 阅读全文
posted @ 2020-03-07 22:00 再见傅里叶 阅读(224) 评论(0) 推荐(0) 编辑
摘要: sql语句方式 flightData2015.createOrReplaceTempView("flightData2015") spark.sql("select DEST_COUNTRY_NAME ,sum(count) as destination_total" + " from flight 阅读全文
posted @ 2020-03-07 21:51 再见傅里叶 阅读(3044) 评论(0) 推荐(0) 编辑
摘要: 参考https://www.cnblogs.com/flymin/p/11345646.html 小文件:存储于HDFS中小文件,即指文件的大小远小于HDFS上块(dfs.block.size)大小的文件。 阅读全文
posted @ 2020-03-07 21:45 再见傅里叶 阅读(1612) 评论(0) 推荐(0) 编辑