_XiongH - 博客园

2019年7月9日

摘要：一，并行度如果并行度设置的不足，那么就会导致集群浪费。Spark自动会根据文件的大小，是否可分割等因素来设置map的数目(后面会详细讲解输入格式，同时详细讲解各种输入的map数的决定)。对于分布式reduce操作，例如groupbykey和reducebykey，默认它使用的是分区数最大的父RDD 阅读全文

posted @ 2019-07-09 12:38 _XiongH 阅读(289) 评论(0) 推荐(0)

2019年7月8日

Python报错[DLL load failed：找不到指定的模块]

摘要： Anaconda3在运行引入numpy模块时，报错：“import numpy ImportError: DLL load failed：找不到指定的模块”解决方案从Traceback中可以看出问题在于numpy包，卸载重装后依旧有问题。添加以下Path环境变量后，问题得到解决。 C:\Prog 阅读全文

posted @ 2019-07-08 20:41 _XiongH 阅读(11247) 评论(0) 推荐(0)

2019年7月7日

大数据技术框架

摘要：大数据整体技术框架大数据技术框架简单入门知识。所有大数据项目都是遵循这套流程。阅读全文

posted @ 2019-07-07 16:29 _XiongH 阅读(600) 评论(0) 推荐(0)

Eclipse link方式安装第三方插件(PyDev插件安装)

摘要： eclipse安装目录：D:\Program Files\IDE\eclipse 插件目录：D:\Program Files\IDE\eclipse\third-plug\PyDev (一般包含：features与plugins文件夹) 在eclipse的安装目录下新建links 文件夹，在link 阅读全文

posted @ 2019-07-07 11:44 _XiongH 阅读(273) 评论(0) 推荐(0)

BigData

公告