2020 年 5月 10 日随笔档案 - abc十号

2020年5月10日

摘要：一、Hive-sql 常用优化 MapReduce 流程： Input->split->map->buffer(此处调整其大小)->spill->spill过多合并->merge->combine(减少reduce压力)->shuffle(copy、merge)->spill->disk->redu 阅读全文

posted @ 2020-05-10 23:25 abc十号阅读(2544) 评论(1) 推荐(0) 编辑

2、Hive的排序，窗口函数

摘要：一、Hive的排序 order by：会对输入做全局排序，因此只有一个 reducer。 order by 在 hive.mapred.mode = strict 模式下必须指定 limit 否则执行会报错。 sort by：不是全局排序，其在数据进入 reducer 前完成排序。因此，如果用阅读全文

posted @ 2020-05-10 22:13 abc十号阅读(1508) 评论(0) 推荐(0) 编辑

1、Hive介绍

摘要：一、Hive介绍与原理分析 Hive是一个基于Hadoop的开源数据仓库工具，用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架，提供了类似于SQL语法的HQL（hiveSQL）语句作为数据访问接口。 Hive数据存储在HDFS上，因此可以存大量数据。 Hiv 阅读全文

posted @ 2020-05-10 21:35 abc十号阅读(1745) 评论(0) 推荐(0) 编辑

@zl

公告