摘要: Hadoop中进行小文件处理 1.坏处: a.存储:每一个小文件在存储的时候都会产生一个元数据,如果存储大量的小文件,会产生大量的元数据,导致NameNode的效率降低, 如果小文件过多,可能会导致 NameNode的内存崩溃 b.计算:每一个小文件都会作为一个切片来处理,每一个切片都要对应一个Ma 阅读全文
posted @ 2020-06-24 14:09 alen-fly 阅读(163) 评论(0) 推荐(0) 编辑
摘要: 一、数据的本地化 1.当JobTracker接收到应用之后,会去访问NameNode获取要处理的文件信息 2.NameNode将文件信息返回给JobTracker,这里的文件信息只是文件在DataNode上的存储路径和大小等基本属性,没有具体的文件数据内容 3.JobTracker收到文件信息之后会 阅读全文
posted @ 2020-06-24 13:36 alen-fly 阅读(395) 评论(0) 推荐(0) 编辑