摘要: 在开发PySpark程序时通常会需要用到Java的对象,而PySpark本身也是建立在Java API之上,通过Py4j来创建JavaSparkContext。这里有几点是需要注意的1.Py4j只运行在driver也就是说worker目前来说引入不了第三方的jar包。因为worker结点的PySpa... 阅读全文
posted @ 2015-05-18 10:38 errdev 阅读(3665) 评论(0) 推荐(0) 编辑
摘要: 在用PySpark操作HBase时默认是scan操作,通常情况下我们希望加上rowkey指定范围,即只获取一部分数据参加运算。翻遍了spark的python相关文档,搜遍了google和stackoverflow也没有具体的解决方案。既然java和scala都支持,python肯定也支持的。翻了一下... 阅读全文
posted @ 2015-05-13 12:48 errdev 阅读(4384) 评论(1) 推荐(0) 编辑
摘要: 最近老大让用Spark做一个ETL项目,搭建了一套只有三个结点Standalone模式的Spark集群做测试,基础数据量大概8000W左右。看了官方文档,Spark确实在Map-Reduce上提升了很多,可是官方明确提出了在Interactive Data方面性能提升最大。但是做ETL的数据之间是平... 阅读全文
posted @ 2015-04-23 23:59 errdev 阅读(2792) 评论(0) 推荐(0) 编辑
摘要: 原文链接:http://www.errdev.com/post/5/Markdown以其简洁的语法赢得了广大程序猿的喜爱,搜了一下github上相关的web编辑器,星星比较多的StackeditdillingerEpicEditor前面两个是集成的编辑器,提供很多的功能,可是我想找一个能嵌入到当前w... 阅读全文
posted @ 2015-04-20 20:17 errdev 阅读(1492) 评论(0) 推荐(0) 编辑
摘要: 原文链接:http://www.errdev.com/post/4/每一个爱折腾的程序员都有自己的博客,好吧,虽然我不太喜欢写博客,但是这样骚包的想法却不断涌现。博客园虽好,可以没有完全的掌控感,搭了一段时间的Wordpress,奈何不是专门做前端的,懒得去做一套新的主题,折腾来折腾去还是决定自己做... 阅读全文
posted @ 2015-04-20 20:07 errdev 阅读(770) 评论(0) 推荐(1) 编辑
摘要: 原文链接:http://www.errdev.com/post/3/Hadoop2.6是目前Hadoop的最新版本,从下面链接获得http://hadoop.apache.org/releases.html#Download同时需要准备至少一台Linux, 这里我用了CentOS 7。虚拟机装Cen... 阅读全文
posted @ 2015-04-20 20:05 errdev 阅读(335) 评论(0) 推荐(0) 编辑
摘要: 原文链接:http://www.errdev.com/post/2/捣鼓了一段时间的VIM,神器终归是神器,果然编码效率提升了许多,当然还需要很多插件来配合。自己装插件很麻烦,还要有Vundle这个插件管理器Vundle - https://github.com/gmarik/Vundle.vim下... 阅读全文
posted @ 2015-04-20 19:44 errdev 阅读(454) 评论(0) 推荐(0) 编辑