2019 年 8月 14 日随笔档案 - _Meditation

2019年8月14日

数据算法 --hadoop/spark数据处理技巧 --（1.二次排序问题 2. TopN问题）

摘要：一、二次排序问题。 MR/hadoop两种方案： 1.让reducer读取和缓存给个定键的所有值（例如，缓存到一个数组数据结构中，）然后对这些值完成一个reducer中排序。这种方法不具有可伸缩性，因为reducer要接受一个给定键的所有值，这种方法可能导致reducer的内存耗尽（OOM）。另一方阅读全文

posted @ 2019-08-14 14:29 _Meditation 阅读(286) 评论(0) 推荐(0) 编辑

Meditation

埋滴忒深

公告