摘要:
spark_sql_shuffle_partitions设置executor的partitions个数,注意这个参数只对SparkSQL有用 但是有的文章说这是并行度,一个partitions相当于一个task? 阅读全文
摘要:
sql语句方式 flightData2015.createOrReplaceTempView("flightData2015") spark.sql("select DEST_COUNTRY_NAME ,sum(count) as destination_total" + " from flight 阅读全文
摘要:
参考https://www.cnblogs.com/flymin/p/11345646.html 小文件:存储于HDFS中小文件,即指文件的大小远小于HDFS上块(dfs.block.size)大小的文件。 阅读全文