摘要:
测试小结:1.如果只需要对数据集进行过滤,筛选则只需要编写Mapper类,不需要Reduce类,此时要执行下面一条语句:job.setNumReduceTesk(0);2.如果需要对处理的数据进行分组(group by)、排序(order by)、表连接(join)、排重(distinct)等操作则 阅读全文
摘要:
两张表链接操作(分布式缓存): 假设:其中一张A表,只有20条数据记录(比如group表)另外一张非常大,上亿的记录数量(比如user表) 策略:将数据集小的文件直接装载到内存,然后迭代大文件记录; 分布式缓存的两种角度理解(针对较小数据集):1、将文件不切块,直接存储到各个节点上的本地磁盘中,这种 阅读全文