数据算法 --hadoop/spark数据处理技巧 --（1.二次排序问题 2. TopN问题）

一、二次排序问题。

　　MR/hadoop两种方案：

　　　　1.让reducer读取和缓存给个定键的所有值（例如，缓存到一个数组数据结构中，）然后对这些值完成一个reducer中排序。这种方法不具有可伸缩性，因为reducer要接受一个给定键的所有值，这种方法可能导致reducer的内存耗尽（OOM）。另一方面，如果值数量很少，就不会导致内存溢出，那么这种方法可行。

　　　　2.使用MR框架对reducer的值排序（这样一来，就不再需要对传入reducer的值完成排序。）这种方法“会为自然键增加部分或整个值来创建一个组合键以实现排序目标”（参考 java Code Geeks）。这种方法可伸缩，不会产生内存溢出错误。在这里，排序工作基本上由MR框架来完成。

　　　　使用MR框架的二次排序设计模式，规约器值到达时就是有序地。（也就是说，不再需要在内存中对值进行排序）。这种技术使用了MR框架的洗牌和排序技术完成规约器值的排序。这种解决方案比1更可取，不再依赖内存完成排序。　　　　

　　　　思考分析：对返回数据形式进行分析，自定义对象和reducer的分区策略。（当然为了实现排序，要对自定义的对象进行实现comparele接口，重写compare方法。）

　　spark两种方案：

　　　　1.将一个给定键的所有值读取缓存到一个List数组结构中，然后对这些值完成排序。优缺点同MR方案1.

　　　　2.使用Spark框架对规约器值排序（这种做法不需要对传入规约器的值完成规约器中排序）。这种方法“会为自然建增加部分或整个值来创建一个组合键以实现排序目标。”

二。 Top N问题。

　　列表L的TopN 算法大致描述：L列表的元素是一个scala的tuple结构，通过java的TreeMap将一个tuple添加到其中，然后对TreeMap进>N的if操作，来进行remove操作。

　　1.唯一键。

　　　　例子：

　　　　在这个问题上，可以使用一个规约器完成对所有数据的接收，所有压力和负载全部是都在这一个节点上。在这里不糊带来性能问题，为什么呢。假设有由1000个映射，每个映射器只会生成10个键值对，因为，这个规约器只会得到10*1000个记录，这个数据量还不至于导致性能瓶颈。

　　　　2.非唯一键

　　　　　　例子：

　　　　　　topN设计模式：这里假设所有K不是唯一的，主要步骤：

　　　　　　　　①。确保所有K是唯一的。要保证K是唯一的(存在不唯一的，直接把相同的K的V相加。)，我们要把输入映射到JavaPairRDD<K,V>对，然后交给reduceByKey().

　　　　　　　　②。将所有唯一的（K，V）对划分为M个分区。

　　　　　　　　③。找出个个分区的Top N。

　　　　　　　　④。找出所有本地topN的最终top N.

posted @ 2019-08-14 14:29 _Meditation 阅读(286) 评论(0) 编辑收藏举报

刷新页面返回顶部

Meditation

埋滴忒深

数据算法 --hadoop/spark数据处理技巧 --（1.二次排序问题 2. TopN问题）

公告