上一页 1 ··· 4 5 6 7 8
摘要: 一,并行度 如果并行度设置的不足,那么就会导致集群浪费。Spark自动会根据文件的大小,是否可分割等因素来设置map的数目(后面会详细讲解输入格式,同时详细讲解各种输入的map数的决定)。对于分布式reduce操作,例如groupbykey和reducebykey,默认它使用的是分区数最大的父RDD 阅读全文
posted @ 2019-07-09 12:38 _XiongH 阅读(278) 评论(0) 推荐(0) 编辑
摘要: Anaconda3在运行引入numpy模块时,报错:“import numpy ImportError: DLL load failed:找不到指定的模块”解决方案 从Traceback中可以看出问题在于numpy包,卸载重装后依旧有问题。 添加以下Path环境变量后,问题得到解决。 C:\Prog 阅读全文
posted @ 2019-07-08 20:41 _XiongH 阅读(11077) 评论(0) 推荐(0) 编辑
摘要: 大数据整体技术框架 大数据技术框架简单入门知识。所有大数据项目都是遵循这套流程。 阅读全文
posted @ 2019-07-07 16:29 _XiongH 阅读(552) 评论(0) 推荐(0) 编辑
摘要: eclipse安装目录:D:\Program Files\IDE\eclipse 插件目录:D:\Program Files\IDE\eclipse\third-plug\PyDev (一般包含:features与plugins文件夹) 在eclipse的安装目录下新建links 文件夹,在link 阅读全文
posted @ 2019-07-07 11:44 _XiongH 阅读(254) 评论(0) 推荐(0) 编辑
上一页 1 ··· 4 5 6 7 8