2017 年 12月 19 日随笔档案 - 淼淼之森

2017年12月19日

摘要：测试小结：1.如果只需要对数据集进行过滤，筛选则只需要编写Mapper类，不需要Reduce类，此时要执行下面一条语句:job.setNumReduceTesk(0);2.如果需要对处理的数据进行分组（group by）、排序（order by）、表连接（join）、排重（distinct）等操作则阅读全文

posted @ 2017-12-19 17:48 淼淼之森阅读(571) 评论(0) 推荐(1) 编辑

YARN集群的mapreduce测试（六）

摘要：两张表链接操作（分布式缓存）：假设：其中一张A表，只有20条数据记录（比如group表）另外一张非常大，上亿的记录数量（比如user表）策略：将数据集小的文件直接装载到内存，然后迭代大文件记录；分布式缓存的两种角度理解（针对较小数据集）：1、将文件不切块，直接存储到各个节点上的本地磁盘中，这种阅读全文

posted @ 2017-12-19 17:25 淼淼之森阅读(548) 评论(0) 推荐(0) 编辑

淼淼之森

学习在于积累：滴水可以石穿！学而不思则罔，思而不学则殆！
👉【转载请注明出处和署名！】

公告

淼淼之森

学习在于积累：滴水可以石穿！ 学而不思则罔，思而不学则殆！ 👉【转载请注明出处和署名！】

公告

学习在于积累：滴水可以石穿！学而不思则罔，思而不学则殆！
👉【转载请注明出处和署名！】