摘要:
窄依赖 narrow dependency map,filter,union , join(co-partitioned)制定了父RDD中的分片具体交给哪个唯一的子RDD 并行的,RDD分片是独立的。 只依赖相同ID的分片 range分片 one to dependency range depend 阅读全文
摘要:
1,/etc/hosts下的ip master/slave 的对照 /etc/sysconfig/network 配置: NETWORKING=yes HOSTNAME=master 以及spark/conf/spark-env.sh 及 slave文件的相关配置 如果不bind ip和master 阅读全文
摘要:
一,想访问远程Oracle数据库,本地又不想安装几百兆的Oracle Client(也木有root权限),安装python的cx_Oralce 模块需要依赖Oracle Instant Client 代替完整的Oracle Client。 Oracle Instant Client 下载:http: 阅读全文
摘要:
结合之前遇到的坑以及下面贴的这篇文章, 总结几种python乱码解决方案,如果遇到乱码,不妨尝试一下? 1,必备 2, python编程环境编码 3,不知道神马编码的时候用chardet查一下 4,mysql 的默认字符集 latin1,Latin1是ISO-8859-1的别名,有些环境下写作Lat 阅读全文
摘要:
zip这个函数是在scala中的,spark中也应用于RDD类型 RDD 也自带zip的transform操作: rdd1.zip(rdd2) 注意rdd1.count()应该和rdd2.count()的大小是一样的,不然报错 阅读全文
摘要:
http://www.iteblog.com/archives/1240 阅读全文