将众多小文件输入Hadoop的解决方案 可挂载的HDFS

 

配置HDFS为可挂载后:

1-可挂载后才支持非完整POSIX语义;

2-仍然不支持随机写入,仍然为“一次写入,多次读取”;

3-可能误用,导致众多小文件;

 

1-使用Solr存储和检索小文件;

2-使用HBase存储小文件,使用路径和文件名称做为键;

3-使用容器格式,如SequenceFiles或Avro,合并小文件。

 

posted @ 2017-10-14 09:37  papering  阅读(207)  评论(0编辑  收藏  举报