2016 年 4月 21 日随笔档案 - fkissx

2016年4月21日

摘要：窄依赖 narrow dependency map,filter,union , join(co-partitioned)制定了父RDD中的分片具体交给哪个唯一的子RDD 并行的，RDD分片是独立的。只依赖相同ID的分片 range分片 one to dependency range depend 阅读全文

posted @ 2016-04-21 21:53 fkissx 阅读(144) 评论(0) 推荐(0) 编辑

sprak 环境搭建的坑

摘要： 1，/etc/hosts下的ip master/slave 的对照 /etc/sysconfig/network 配置： NETWORKING=yes HOSTNAME=master 以及spark/conf/spark-env.sh 及 slave文件的相关配置如果不bind ip和master 阅读全文

posted @ 2016-04-21 21:44 fkissx 阅读(226) 评论(0) 推荐(0) 编辑

python 安装cx_Oracle模块， MySQLdb模块， Tornado

摘要：一，想访问远程Oracle数据库，本地又不想安装几百兆的Oracle Client(也木有root权限)，安装python的cx_Oralce 模块需要依赖Oracle Instant Client 代替完整的Oracle Client。 Oracle Instant Client 下载：http: 阅读全文

posted @ 2016-04-21 21:29 fkissx 阅读(1248) 评论(0) 推荐(0) 编辑

python 编码问题之终极解决

摘要：结合之前遇到的坑以及下面贴的这篇文章，总结几种python乱码解决方案，如果遇到乱码，不妨尝试一下？ 1，必备 2,　python编程环境编码 3,不知道神马编码的时候用chardet查一下 4,mysql 的默认字符集 latin1，Latin1是ISO-8859-1的别名，有些环境下写作Lat 阅读全文

posted @ 2016-04-21 16:04 fkissx 阅读(11135) 评论(0) 推荐(0) 编辑

Spark-RDD之 zip

摘要： zip这个函数是在scala中的，spark中也应用于RDD类型 RDD 也自带zip的transform操作： rdd1.zip(rdd2) 注意rdd1.count()应该和rdd2.count()的大小是一样的，不然报错阅读全文

posted @ 2016-04-21 15:33 fkissx 阅读(1489) 评论(0) 推荐(0) 编辑

Spark-RDD 之排序sortBy 和sortByKey

摘要： http://www.iteblog.com/archives/1240 阅读全文

posted @ 2016-04-21 11:04 fkissx 阅读(1687) 评论(0) 推荐(0) 编辑

fkissx

公告