摘要: 一、SPARK 其中top算子调用的takeOrdered算子,takeOrdered算子底层使用的是优先队列(BoundedPriorityQueue),首先进入的是mapPatition,然后使用reduce将每个分区数据进行合并 sortBy + take val url: URL = Lau 阅读全文
posted @ 2021-12-13 14:44 Shydow 阅读(282) 评论(0) 推荐(0) 编辑
摘要: 一般在使用mapPartition时,往往会跟随着文件的创建或者数据库的连接等,此时我们需要在创建一个容器,用于存储维表关联后的数据,但这有一个问题,创建的容器会占用内存的,这时我们可以使用迭代器进行优化。 一、普遍方法 package org.shydow import java.sql.{Con 阅读全文
posted @ 2021-12-13 11:29 Shydow 阅读(439) 评论(0) 推荐(0) 编辑
摘要: 一、CDH6.2中自带访问阿里云OSS的jar包,只需要将相应的jar放到./spark/jars目录下即可: cd /opt/cloudera/parcels/CDH/jarsmv aliyun-sdk-oss-2.8.3.jar ../lib/spark/jars/mv hadoop-aliyu 阅读全文
posted @ 2021-12-13 10:22 Shydow 阅读(231) 评论(0) 推荐(0) 编辑