2018年10月23日

关于hive当中的map输入数据和reduce输出数据的合并。

摘要: 最近在做要执行很复杂的sql.然后在文件输出的时候出现了一堆小文件: 为啥要对小文件进行合并一句话总结为:文件数目过多,增加namenode的压力。因为每一个文件的元数据信息都是存在namenode上面的。所以要减少小文件的数据量。 同时也是降低下一个程序处理这些小文件,启动和小文件一样数量的map 阅读全文

posted @ 2018-10-23 18:14 gxg123 阅读(1076) 评论(0) 推荐(0) 编辑

关于sqoop导入数据到hive数据库当中,表中数据为空倒入hive当中的处理

摘要: 今天在hive数据库当中查询一张表,查询数据为空的值,但是死活就是匹配不到: 查询语句如下: 我直接插寻这个字段是有值的啊,也是为null,为啥就不可以啊。原来真正的问题的源头是从我们使用sqoop导入数据开始的。在sqoop导入数据的时候如果不对null做处理,他会将原来为null的值导入的时候 阅读全文

posted @ 2018-10-23 11:24 gxg123 阅读(727) 评论(0) 推荐(0) 编辑

导航