摘要:
一,并行度 如果并行度设置的不足,那么就会导致集群浪费。Spark自动会根据文件的大小,是否可分割等因素来设置map的数目(后面会详细讲解输入格式,同时详细讲解各种输入的map数的决定)。对于分布式reduce操作,例如groupbykey和reducebykey,默认它使用的是分区数最大的父RDD 阅读全文
摘要:
Anaconda3在运行引入numpy模块时,报错:“import numpy ImportError: DLL load failed:找不到指定的模块”解决方案 从Traceback中可以看出问题在于numpy包,卸载重装后依旧有问题。 添加以下Path环境变量后,问题得到解决。 C:\Prog 阅读全文