摘要: 自定义分片策略解决大量小文件问题@(Hadoop)默认的TextInputFormat应该都知道默认的TextInputFormat是一行行的读取文件内容,这对于一个或几个超大型的文件来说并没有什么问题,但是在实验读取大量小文件的时候,性能及其低下。实验过程分别有5个文件夹,每个文... 阅读全文
posted @ 2016-03-01 11:41 蒋源德 阅读(407) 评论(0) 推荐(0) 编辑