瞌睡中的葡萄虎

博客园 首页 新随笔 联系 订阅 管理

2015年2月9日 #

摘要: order_created.txt 订单编号 订单创建时间10703007267488 2014-05-01 06:01:12.334+0110101043505096 2014-05-01 07:28:12.342+0110103043509747 2014-05-01 07:50:12.... 阅读全文
posted @ 2015-02-09 15:05 瞌睡中的葡萄虎 阅读(1976) 评论(0) 推荐(0) 编辑

摘要: 如果一个RDD很大以至于它的所有元素并不能在driver端机器的内存中存放下,请不要进行如下调用:val values = myVeryLargeRDD.collect()collect将尝试拷贝RDD中的每个元素到Driver端,容易导致OOM或者crash;相反,如果你能通过调用take、tak... 阅读全文
posted @ 2015-02-09 14:46 瞌睡中的葡萄虎 阅读(1442) 评论(0) 推荐(0) 编辑

摘要: 对于调优和排错来说,查看一个RDD有多少个partition是非常有用的。常用的查看方法有如下几种:1、通过SparkUI查看Task执行的partition数当一个stage执行时,能通过SparkUI界面查看到指定stage的partiton数目val someRDD = sc.parallel... 阅读全文
posted @ 2015-02-09 14:46 瞌睡中的葡萄虎 阅读(828) 评论(0) 推荐(0) 编辑