2018 年 10月 23 日随笔档案 - gxg123

2018年10月23日

关于hive当中的map输入数据和reduce输出数据的合并。

摘要：最近在做要执行很复杂的sql.然后在文件输出的时候出现了一堆小文件：为啥要对小文件进行合并一句话总结为：文件数目过多，增加namenode的压力。因为每一个文件的元数据信息都是存在namenode上面的。所以要减少小文件的数据量。同时也是降低下一个程序处理这些小文件，启动和小文件一样数量的map 阅读全文

posted @ 2018-10-23 18:14 gxg123 阅读(1076) 评论(0) 推荐(0) 编辑

关于sqoop导入数据到hive数据库当中，表中数据为空倒入hive当中的处理

摘要：今天在hive数据库当中查询一张表，查询数据为空的值，但是死活就是匹配不到：查询语句如下：我直接插寻这个字段是有值的啊，也是为null，为啥就不可以啊。原来真正的问题的源头是从我们使用sqoop导入数据开始的。在sqoop导入数据的时候如果不对null做处理，他会将原来为null的值导入的时候阅读全文

posted @ 2018-10-23 11:24 gxg123 阅读(727) 评论(0) 推荐(0) 编辑

gxg123

关于hive当中的map输入数据和reduce输出数据的合并。

关于sqoop导入数据到hive数据库当中，表中数据为空倒入hive当中的处理

导航

公告