摘要: 转自:https://www.cnblogs.com/zhzhang/p/5691997.html Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和 阅读全文
posted @ 2019-11-23 09:49 海贼王一样的男人 阅读(233) 评论(0) 推荐(0) 编辑
摘要: 合理使用文件存储格式 建表时,尽量使用 orc、parquet 这些列式存储格式,因为列式存储的表,每一列的数据在物理上是存储在一起的,Hive查询时会只遍历需要列数据,大大减少处理的数据量。 采用合适的文件压缩 Hive最终是转为 MapReduce 程序来执行的,而 MapReduce 的性能瓶 阅读全文
posted @ 2019-11-20 16:00 海贼王一样的男人 阅读(796) 评论(0) 推荐(0) 编辑
摘要: Hive的文件存储格式: textFile textFile为默认格式 存储方式:行存储 缺点:磁盘开销大;数据解析开销大;压缩的text文件,hive无法进行合并和拆分 sequencefile 二进制文件,以<key,value>的形式序列化到文件中 存储方式:行存储 优点:可分割、压缩,一般选 阅读全文
posted @ 2019-11-20 15:04 海贼王一样的男人 阅读(3310) 评论(1) 推荐(0) 编辑