2021 年 12月 13 日随笔档案 - Shydow

2021年12月13日

摘要：一、SPARK 其中top算子调用的takeOrdered算子，takeOrdered算子底层使用的是优先队列（BoundedPriorityQueue），首先进入的是mapPatition，然后使用reduce将每个分区数据进行合并 sortBy + take val url: URL = Lau 阅读全文

posted @ 2021-12-13 14:44 Shydow 阅读(282) 评论(0) 推荐(0) 编辑

在spark mapPartition中使用迭代器进行优化

摘要：一般在使用mapPartition时，往往会跟随着文件的创建或者数据库的连接等，此时我们需要在创建一个容器，用于存储维表关联后的数据，但这有一个问题，创建的容器会占用内存的，这时我们可以使用迭代器进行优化。一、普遍方法 package org.shydow import java.sql.{Con 阅读全文

posted @ 2021-12-13 11:29 Shydow 阅读(439) 评论(0) 推荐(0) 编辑

CDH6.2的spark访问OSS

摘要：一、CDH6.2中自带访问阿里云OSS的jar包，只需要将相应的jar放到./spark/jars目录下即可： cd /opt/cloudera/parcels/CDH/jarsmv aliyun-sdk-oss-2.8.3.jar ../lib/spark/jars/mv hadoop-aliyu 阅读全文

posted @ 2021-12-13 10:22 Shydow 阅读(231) 评论(0) 推荐(0) 编辑

Shydow

公告