关于hive当中的map输入数据和reduce输出数据的合并。
摘要:
最近在做要执行很复杂的sql.然后在文件输出的时候出现了一堆小文件: 为啥要对小文件进行合并一句话总结为:文件数目过多,增加namenode的压力。因为每一个文件的元数据信息都是存在namenode上面的。所以要减少小文件的数据量。 同时也是降低下一个程序处理这些小文件,启动和小文件一样数量的map 阅读全文
posted @ 2018-10-23 18:14 gxg123 阅读(1076) 评论(0) 推荐(0) 编辑