摘要: 一.Join原则 将条目少的表/子查询放在Join的左边。原因:在Join的reduce阶段,位于Join左边的表的内容会被加载进内存,条目少的表放在左边,可以减少发生内存溢出的几率。 小表关联大表:用MapJoin把小表全部加载到内存在map端Join,避免reducer处理。如: select 阅读全文
posted @ 2018-04-07 17:01 梦里南柯 阅读(347) 评论(0) 推荐(0) 编辑
摘要: 数据倾斜:由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点。map /reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的re 阅读全文
posted @ 2018-04-07 16:22 梦里南柯 阅读(2660) 评论(0) 推荐(1) 编辑