摘要: 1.从同一个数据源尽量只创建一个rdd,后续业务逻辑复用该rdd2.如果要对某个rdd进行多次的transformation或action操作,应当持久化该rdd3.从数据源读取到rdd后,要尽早的进行filter操作以过滤掉无用的数据4.尽量避免使用shffle算子,使用shuffle时,应尽量减 阅读全文
posted @ 2018-08-13 23:36 生心无住 阅读(172) 评论(0) 推荐(0) 编辑
摘要: SimpleDataFormat 是我们常用的时间转换工具,我再spark中使用sdf对时间戳进行转换,发现转化出的时间有异常,原来sdf是线程不安全的, 改用joda time,错误消失,样例如下 <dependency> <groupId>joda-time</groupId> <artifac 阅读全文
posted @ 2018-08-13 17:14 生心无住 阅读(536) 评论(0) 推荐(0) 编辑