2019年8月5日

数据倾斜(记录)

摘要: 一、数据倾斜介绍与定位 二、解决方法一:聚合数据源 三、解决方法二:提高shuffle操作reduce并行度 四、解决方法之三:随机key实现双重聚合 五、解决方法之四:将reduce join 转换为map join 六、解决方法之五:sample采样倾斜key进行两次join 七、解决方法之六: 阅读全文

posted @ 2019-08-05 17:13 农夫三拳有點疼 阅读(375) 评论(0) 推荐(0) 编辑

0 Spark调优

摘要: 1. 开发调优 - 避免创建重复的RDD - 尽可能复用同一个RDD - 对多次使用的RDD进行持久化 - 尽量避免使用shuffle类算子 - 使用map-side预聚合的shuffle操作(在每个节点本地对相同的key进行一次聚合操作,map-side预聚合之后,每个节点本地就只会有一条相同的k 阅读全文

posted @ 2019-08-05 17:04 农夫三拳有點疼 阅读(156) 评论(0) 推荐(0) 编辑

推荐系统--入门篇

摘要: 推荐系统领域,常见两种推荐任务,一种是评分预测,一种是Top-N原则 评分预测: 以下是两个用户对喜好的打分情况 由上图可得:U1和U2都喜欢羽毛球,并且喜爱的程度不低,那么我们可以推出U1和U2具有相同的爱好,因此我们就可以将足球推荐给U2,这就是评分预测大致的过程。 Top-N原则: 以下是三个 阅读全文

posted @ 2019-08-05 13:38 农夫三拳有點疼 阅读(286) 评论(0) 推荐(0) 编辑

导航