2016年11月13日
摘要: 有许多场景下,我们需要进行跨服务器的数据整合,比如两个表之间,通过Id进行join操作,你必须确保所有具有相同id的数据整合到相同的块文件中。那么我们先说一下mapreduce的shuffle过程。 Mapreduce的shuffle的计算过程是在executor中划分mapper与reducer。 阅读全文
posted @ 2016-11-13 14:05 松伯 阅读(7833) 评论(0) 推荐(0) 编辑
摘要: Spark 内部管理机制 Spark的内存管理自从1.6开始改变。老的内存管理实现自自staticMemoryManager类,然而现在它被称之为”legacy”. “Legacy” 默认已经被废弃掉了,它意味着相同的代码在1.5版本与1.6版本的输出结果将会不同。需要注意的是,出于兼容性的考虑,你 阅读全文
posted @ 2016-11-13 10:29 松伯 阅读(1684) 评论(0) 推荐(0) 编辑