2018年8月9日

摘要: mapPartitions操作与 map类似,只不过映射的参数由RDD中的每一个元素变成了RDD中每一个分区的迭代器,如果映射过程需要频繁创建额外的对象,使用mapPartitions操作要比map操作效率高效许多。比如将RDD中的所有数据通过JDBC链接写入数据库,如果使用map函数,可能要为每个 阅读全文

posted @ 2018-08-09 17:43 打杂滴 阅读(448) 评论(0) 推荐(0) 编辑

摘要: scala> val personRDD=sc.textFile("/tmp/person.txt")personRDD: org.apache.spark.rdd.RDD[String] = /tmp/person.txt MapPartitionsRDD[39] at textFile at < 阅读全文

posted @ 2018-08-09 16:49 打杂滴 阅读(144) 评论(0) 推荐(0) 编辑


Copyright © 2024 打杂滴
Powered by .NET 8.0 on Kubernetes