上一页 1 ··· 32 33 34 35 36 37 38 39 40 ··· 50 下一页

2019年8月5日

数据倾斜(记录)

摘要: 一、数据倾斜介绍与定位 二、解决方法一:聚合数据源 三、解决方法二:提高shuffle操作reduce并行度 四、解决方法之三:随机key实现双重聚合 五、解决方法之四:将reduce join 转换为map join 六、解决方法之五:sample采样倾斜key进行两次join 七、解决方法之六: 阅读全文

posted @ 2019-08-05 17:13 农夫三拳有點疼 阅读(375) 评论(0) 推荐(0) 编辑

0 Spark调优

摘要: 1. 开发调优 - 避免创建重复的RDD - 尽可能复用同一个RDD - 对多次使用的RDD进行持久化 - 尽量避免使用shuffle类算子 - 使用map-side预聚合的shuffle操作(在每个节点本地对相同的key进行一次聚合操作,map-side预聚合之后,每个节点本地就只会有一条相同的k 阅读全文

posted @ 2019-08-05 17:04 农夫三拳有點疼 阅读(156) 评论(0) 推荐(0) 编辑

推荐系统--入门篇

摘要: 推荐系统领域,常见两种推荐任务,一种是评分预测,一种是Top-N原则 评分预测: 以下是两个用户对喜好的打分情况 由上图可得:U1和U2都喜欢羽毛球,并且喜爱的程度不低,那么我们可以推出U1和U2具有相同的爱好,因此我们就可以将足球推荐给U2,这就是评分预测大致的过程。 Top-N原则: 以下是三个 阅读全文

posted @ 2019-08-05 13:38 农夫三拳有點疼 阅读(286) 评论(0) 推荐(0) 编辑

2019年8月2日

win7系统中Anaconda安装pytorch的教程

摘要: 1、新建conda环境:conda create -n torch python=3.72、安装必备组件:conda install numpy mkl cffi 3、进入官网 https://pytorch.org/ ,选择pip安装,分别安装下面两个即可: 4、输入python,import t 阅读全文

posted @ 2019-08-02 09:35 农夫三拳有點疼 阅读(1497) 评论(0) 推荐(0) 编辑

2019年7月30日

PyCharm配置远程python解释器和在本地修改服务器代码

摘要: 学习机器学习的过程中,常常需要将本地写的代码传到GPU服务器中,然后在服务器上运行,这就牵涉到配置远程解释器。 一、使用场景 在本地机子上写python代码,但是因为是机器学习相关的一些代码,有时候本机跑可能会很慢,或者根本跑不下来。而此时,我还有一台可用的服务器,上面配置了相应的python3环境 阅读全文

posted @ 2019-07-30 15:23 农夫三拳有點疼 阅读(543) 评论(0) 推荐(0) 编辑

上一页 1 ··· 32 33 34 35 36 37 38 39 40 ··· 50 下一页

导航