2016 年 11月 13 日随笔档案 - 松伯

2016年11月13日

摘要：有许多场景下，我们需要进行跨服务器的数据整合，比如两个表之间，通过Id进行join操作，你必须确保所有具有相同id的数据整合到相同的块文件中。那么我们先说一下mapreduce的shuffle过程。 Mapreduce的shuffle的计算过程是在executor中划分mapper与reducer。阅读全文

posted @ 2016-11-13 14:05 松伯阅读(7848) 评论(0) 推荐(0) 编辑

Spark 1.6以后的内存管理机制

摘要： Spark 内部管理机制 Spark的内存管理自从1.6开始改变。老的内存管理实现自自staticMemoryManager类，然而现在它被称之为”legacy”. “Legacy” 默认已经被废弃掉了，它意味着相同的代码在1.5版本与1.6版本的输出结果将会不同。需要注意的是，出于兼容性的考虑，你阅读全文

posted @ 2016-11-13 10:29 松伯阅读(1687) 评论(0) 推荐(0) 编辑