幻想小说网 酷文学 深夜书屋 叮当小说网 找小说网 无限小说网 红尘小说网

2015年9月24日

spark读取hdfs数据本地性异常

摘要: 在分布式计算中,为了提高计算速度,数据本地性是其中重要的一环。 不过有时候它同样也会带来一些问题。一.问题描述在分布式计算中,大多数情况下要做到移动计算而非移动数据,所以数据本地性尤其重要,因此我们往往也是将hdfs和spark部署在相同的节点上,有些人可能会发现即使他已经... 阅读全文

posted @ 2015-09-24 15:05 张云临 阅读(359) 评论(0) 推荐(0) 编辑

spark join broadcast优化

摘要: 在大量数据中对一些字段进行关联。举例ipTable:需要进行关联的几千条ip数据(70k) hist:历史数据(百亿级别) 直接join将会对所有数据进行shuffle,需要大量的io操作,相同的key会在同一个partition中进行处理,任务的并发度也收到了限制。使用broad... 阅读全文

posted @ 2015-09-24 00:02 张云临 阅读(435) 评论(0) 推荐(0) 编辑

导航