随笔分类 -  Spark-Core

摘要:spark操作数据库 new JDBCRdd sparkSQL ⇒ 将RDD数据保存到MySQL,不能自己创建JDBC DFram DSet 阅读全文
posted @ 2020-09-25 09:41 Mrzxs 阅读(203) 评论(0) 推荐(0) 编辑
摘要:1.foreachRDD会提交状态,如果一个main方法中有两个foreachRDD,那么前一个foreachRDD会执行两边,第一次没啥用(这时候在前边加一个cache缓存,可以解决) 阅读全文
posted @ 2020-09-20 09:07 Mrzxs 阅读(195) 评论(0) 推荐(0) 编辑
摘要:如果不使用广播变量,那么Executor端在使用driver端的数据(变量)时,会在每个task(任务)中生成driver端的变量,容易数据冗余,所以使用广播变量 如果数据量很大,就不要使用广播变量了,数据量中小型可以,数据量太大,容易使driver端负载太严重,毕竟广播变量是在driver端只有一 阅读全文
posted @ 2020-09-19 16:58 Mrzxs 阅读(444) 评论(2) 推荐(1) 编辑
摘要:1.spark textFile读取File 1.1 简单读取文件 val spark = SparkSession.builder() .appName("demo") .master("local[3]") .getOrCreate() // 读取hdfs文件目录 spark.sparkCont 阅读全文
posted @ 2020-08-13 16:34 Mrzxs 阅读(6278) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示
more_horiz
keyboard_arrow_up dark_mode palette
选择主题