摘要: 一、Hive-sql 常用优化 MapReduce 流程: Input->split->map->buffer(此处调整其大小)->spill->spill过多合并->merge->combine(减少reduce压力)->shuffle(copy、merge)->spill->disk->redu 阅读全文
posted @ 2020-05-10 23:25 abc十号 阅读(2544) 评论(1) 推荐(0) 编辑
摘要: 一、Hive的排序 order by:会对输入做全局排序,因此只有一个 reducer。 order by 在 hive.mapred.mode = strict 模式下 必须指定 limit 否则执行会报错。 sort by:不是全局排序,其在数据进入 reducer 前完成排序。 因此,如果用 阅读全文
posted @ 2020-05-10 22:13 abc十号 阅读(1508) 评论(0) 推荐(0) 编辑
摘要: 一、Hive介绍与原理分析 Hive是一个基于Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据。 它是Facebook 2008年8月开源的一个数据仓库框架,提供了类似于SQL语法的HQL(hiveSQL)语句作为数据访问接口。 Hive数据存储在HDFS上,因此可以存大量数据。 Hiv 阅读全文
posted @ 2020-05-10 21:35 abc十号 阅读(1745) 评论(0) 推荐(0) 编辑