摘要: 归并排序是建立在归并操作上的一种有效的排序算法,该算法是采用分治法(Divide and Conquer)的一个非常典型的应用。 先从字面意思来说, 归:归代表了将一个大的数组通过递归的方式,最终拆成一个个的元素 并:并就是将两个相邻的数组按照顺序组成一个新的数组,循环此操作,最终组成一个新的数组 阅读全文
posted @ 2017-09-30 14:14 0xcafedaddy 阅读(237) 评论(0) 推荐(0) 编辑
摘要: 引言 Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。 对于Spark来说有3中Join的实现,每种Join对应着不同的应用场景: 前两者都基于的是Hash Join,只不过在hash 阅读全文
posted @ 2017-09-30 11:28 0xcafedaddy 阅读(10181) 评论(0) 推荐(3) 编辑
摘要: 1.给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url? 假如每个url大小为10bytes,那么可以估计每个文件的大小为50G×64=320G,远远大于内存限制的4G,所以不可能将其完全加载到内存中处理,可以采用分治的思想来解决。 St 阅读全文
posted @ 2017-09-30 00:56 0xcafedaddy 阅读(4705) 评论(0) 推荐(1) 编辑