2020 年 6月 24 日随笔档案 - alen-fly

2020年6月24日

摘要： Hadoop中进行小文件处理 1.坏处： a.存储：每一个小文件在存储的时候都会产生一个元数据，如果存储大量的小文件，会产生大量的元数据，导致NameNode的效率降低，如果小文件过多，可能会导致　NameNode的内存崩溃 b.计算：每一个小文件都会作为一个切片来处理，每一个切片都要对应一个Ma 阅读全文

posted @ 2020-06-24 14:09 alen-fly 阅读(163) 评论(0) 推荐(0) 编辑

Hadoop MR 执行过程和Shuffle

摘要：一、数据的本地化 1.当JobTracker接收到应用之后，会去访问NameNode获取要处理的文件信息 2.NameNode将文件信息返回给JobTracker,这里的文件信息只是文件在DataNode上的存储路径和大小等基本属性，没有具体的文件数据内容 3.JobTracker收到文件信息之后会阅读全文

posted @ 2020-06-24 13:36 alen-fly 阅读(395) 评论(0) 推荐(0) 编辑

alen-fly

公告