摘要:
开启Map输出阶段压缩 减少job中map和reduce task间数据传输量 1.开启hive中间传输数据压缩功能 2.开启mapreduce中map输出压缩功能 3.设置mapreduce中map输出数据的压缩方式 开启Reduce输出阶段压缩 1.开启hive最终输出数据压缩功能 2.开启ma 阅读全文
摘要:
自定义UDF 1.导入依赖 2.创建类,集成UDF,打jar,并放进hive/lib/目录下 3.在hive命令行中 4.使用自定义函数 自定义UDTF 1.导入依赖 2.创建类,集成GenericUDTF,实现方法 3.在hive命令行中 4.使用自定义函数 阅读全文
摘要:
在Hadoop2.0之前,NameNode只有一个,存在单点问题(虽然Hadoop1.0有SecondaryNameNode,CheckPointNode,BackupNode这些,但是单点问题依然存在),在hadoop2.0引入了HA机制。Hadoop2.0的HA机制官方介绍了有2种方式,一种是N 阅读全文