欢迎来到我的博客小站。  交流请加我微信好友: studyjava。  也欢迎关注公众号:Java学习之道 Fork me on GitHub
摘要: 测试小结:1.如果只需要对数据集进行过滤,筛选则只需要编写Mapper类,不需要Reduce类,此时要执行下面一条语句:job.setNumReduceTesk(0);2.如果需要对处理的数据进行分组(group by)、排序(order by)、表连接(join)、排重(distinct)等操作则 阅读全文
posted @ 2017-12-19 17:48 淼淼之森 阅读(571) 评论(0) 推荐(1) 编辑
摘要: 两张表链接操作(分布式缓存): 假设:其中一张A表,只有20条数据记录(比如group表)另外一张非常大,上亿的记录数量(比如user表) 策略:将数据集小的文件直接装载到内存,然后迭代大文件记录; 分布式缓存的两种角度理解(针对较小数据集):1、将文件不切块,直接存储到各个节点上的本地磁盘中,这种 阅读全文
posted @ 2017-12-19 17:25 淼淼之森 阅读(548) 评论(0) 推荐(0) 编辑
  👉转载请注明出处和署名