随笔分类 - Spark-Core
摘要:spark操作数据库 new JDBCRdd sparkSQL ⇒ 将RDD数据保存到MySQL,不能自己创建JDBC DFram DSet
阅读全文
摘要:1.foreachRDD会提交状态,如果一个main方法中有两个foreachRDD,那么前一个foreachRDD会执行两边,第一次没啥用(这时候在前边加一个cache缓存,可以解决)
阅读全文
摘要:如果不使用广播变量,那么Executor端在使用driver端的数据(变量)时,会在每个task(任务)中生成driver端的变量,容易数据冗余,所以使用广播变量 如果数据量很大,就不要使用广播变量了,数据量中小型可以,数据量太大,容易使driver端负载太严重,毕竟广播变量是在driver端只有一
阅读全文
摘要:1.spark textFile读取File 1.1 简单读取文件 val spark = SparkSession.builder() .appName("demo") .master("local[3]") .getOrCreate() // 读取hdfs文件目录 spark.sparkCont
阅读全文
