摘要: 窄依赖 narrow dependency map,filter,union , join(co-partitioned)制定了父RDD中的分片具体交给哪个唯一的子RDD 并行的,RDD分片是独立的。 只依赖相同ID的分片 range分片 one to dependency range depend 阅读全文
posted @ 2016-04-21 21:53 fkissx 阅读(144) 评论(0) 推荐(0) 编辑
摘要: 1,/etc/hosts下的ip master/slave 的对照 /etc/sysconfig/network 配置: NETWORKING=yes HOSTNAME=master 以及spark/conf/spark-env.sh 及 slave文件的相关配置 如果不bind ip和master 阅读全文
posted @ 2016-04-21 21:44 fkissx 阅读(226) 评论(0) 推荐(0) 编辑
摘要: 一,想访问远程Oracle数据库,本地又不想安装几百兆的Oracle Client(也木有root权限),安装python的cx_Oralce 模块需要依赖Oracle Instant Client 代替完整的Oracle Client。 Oracle Instant Client 下载:http: 阅读全文
posted @ 2016-04-21 21:29 fkissx 阅读(1248) 评论(0) 推荐(0) 编辑
摘要: 结合之前遇到的坑以及下面贴的这篇文章, 总结几种python乱码解决方案,如果遇到乱码,不妨尝试一下? 1,必备 2, python编程环境编码 3,不知道神马编码的时候用chardet查一下 4,mysql 的默认字符集 latin1,Latin1是ISO-8859-1的别名,有些环境下写作Lat 阅读全文
posted @ 2016-04-21 16:04 fkissx 阅读(11135) 评论(0) 推荐(0) 编辑
摘要: zip这个函数是在scala中的,spark中也应用于RDD类型 RDD 也自带zip的transform操作: rdd1.zip(rdd2) 注意rdd1.count()应该和rdd2.count()的大小是一样的,不然报错 阅读全文
posted @ 2016-04-21 15:33 fkissx 阅读(1489) 评论(0) 推荐(0) 编辑
摘要: http://www.iteblog.com/archives/1240 阅读全文
posted @ 2016-04-21 11:04 fkissx 阅读(1687) 评论(0) 推荐(0) 编辑