摘要: 开启Map输出阶段压缩 减少job中map和reduce task间数据传输量 1.开启hive中间传输数据压缩功能 2.开启mapreduce中map输出压缩功能 3.设置mapreduce中map输出数据的压缩方式 开启Reduce输出阶段压缩 1.开启hive最终输出数据压缩功能 2.开启ma 阅读全文
posted @ 2020-05-22 22:50 Q1Zhen 阅读(166) 评论(0) 推荐(0) 编辑
摘要: 自定义UDF 1.导入依赖 2.创建类,集成UDF,打jar,并放进hive/lib/目录下 3.在hive命令行中 4.使用自定义函数 自定义UDTF 1.导入依赖 2.创建类,集成GenericUDTF,实现方法 3.在hive命令行中 4.使用自定义函数 阅读全文
posted @ 2020-05-22 17:54 Q1Zhen 阅读(101) 评论(0) 推荐(0) 编辑
摘要: 在Hadoop2.0之前,NameNode只有一个,存在单点问题(虽然Hadoop1.0有SecondaryNameNode,CheckPointNode,BackupNode这些,但是单点问题依然存在),在hadoop2.0引入了HA机制。Hadoop2.0的HA机制官方介绍了有2种方式,一种是N 阅读全文
posted @ 2020-05-22 00:06 Q1Zhen 阅读(275) 评论(0) 推荐(0) 编辑