2017 年 1月 31 日随笔档案 - bonelee

2017年1月31日

Hive数据分析——Spark是一种基于rdd（弹性数据集）的内存分布式并行处理框架，比于Hadoop将大量的中间结果写入HDFS，Spark避免了中间结果的持久化

摘要：转自：http://blog.csdn.net/wh_springer/article/details/51842496 近十年来，随着Hadoop生态系统的不断完善，Hadoop早已成为大数据事实上的行业标准之一。 1 Hive基本原理 Hadoop是一个流行的开源框架，用来存储和处理商用硬件上的阅读全文

posted @ 2017-01-31 23:57 bonelee 阅读(2064) 评论(0) 推荐(0) 编辑

Hive group by实现-就是word 统计

摘要：准备数据计算过程默认设置了hive.map.aggr=true，所以会在mapper端先group by一次，最后再把结果merge起来，为了减少reducer处理的数据量。注意看explain的mode是不一样的。mapper是hash，reducer是mergepartial。如果把hive 阅读全文

posted @ 2017-01-31 23:21 bonelee 阅读(4008) 评论(0) 推荐(0) 编辑

Hive mapreduce SQL实现原理——SQL最终分解为MR任务，而group by在MR里和单词统计MR没有区别了

摘要：转自：http://blog.csdn.net/sn_zzy/article/details/43446027 SQL转化为MapReduce的过程了解了MapReduce实现SQL基本操作之后，我们来看看Hive是如何将SQL转化为MapReduce任务的，整个编译过程分为六个阶段： Join的阅读全文

posted @ 2017-01-31 23:04 bonelee 阅读(12600) 评论(0) 推荐(1) 编辑

SQL group by底层原理——本质是排序，可以利用索引事先排好序

摘要：转自：http://blog.csdn.net/caomiao2006/article/details/52140993 由于GROUP BY 实际上也同样会进行排序操作，而且与ORDER BY 相比，GROUP BY 主要只是多了排序之后的分组操作。当然，如果在分组的时候还使用了其他的一些聚合函数阅读全文

posted @ 2017-01-31 22:48 bonelee 阅读(25772) 评论(0) 推荐(0) 编辑

将者，智、信、仁、勇、严也。

Hi，我是李智华，华为-安全AI算法专家，欢迎来到安全攻防对抗的有趣世界。

公告