随笔- 380 文章- 21 评论- 152 阅读- 149万

Hadoop小文件解决方案

1.背景

HDFS并不擅长存储小文件，因为每个文件最少一个block，每个block的元数据都会在NameNode占用内存，如果存在大量的小文件，它们会吃掉NameNode节点的大量内存。如下所示，模拟小文件场景：

2.Archive概述

Hadoop Archives可以有效的处理以上问题，它可以把多个文件归档成为一个文件，归档成一个文件后还可以透明的访问每一个文件。

3.创建Archive

Usage: hadoop archive -archiveName name -p <parent> <src>* <dest>
           -archiveName 指要创建的存档的名称。扩展名应该是*.har。 
           -p 指定文件档案文件src的相对路径。
比如：-p /foo/bar a/b/c e/f/g，这里的/foo/bar是a/b/c与e/f/g的父路径，所以完整路径为/foo/bar/a/b/c与/foo/bar/e/f/g。

示例：

案例：存档一个目录/smallfile下的所有文件:
hadoop archive -archiveName test.har -p /smallfile /outputdir
这样就会在/outputdir目录下创建一个名为test.har的存档文件。
注意：Archive归档是通过MapReduce程序完成的，需要启动YARN集群。

4.查看 Archive归档之后的样子

 hadoop fs -ls /outputdir/test.har
    这里可以看到har文件包括：两个索引文件，多个part文件（本例只有一个）以及一个标识成功与否的文件。part文件是多个原文件的集合， 通过index文件可以去找到原文件。
    例如上述的三个小文件1.txt 2.txt 3.txt内容分别为1，2，3。进行archive操作之后，三个小文件就归档到test.har里的part-0一个文件里。

5.查看Archive归档之前的样子

在查看har文件的时候，如果没有指定访问协议，默认使用的就是hdfs://，此时所能看到的就是归档之后的样子。
此外，Archive还提供了自己的har uri访问协议。如果用har uri去访问的话，索引、标识等文件就会隐藏起来，只显示创建档案之前的原文件：
Hadoop Archives的URI是：
har://scheme-hostname:port/archivepath/fileinarchive   
scheme-hostname格式为hdfs-域名:端口

6.提取Archive

按顺序解压存档（串行）：
hadoop fs -cp har:///outputdir/test.har/* /smallfile1
要并行解压存档，请使用DistCp,对应大的归档文件可以提高效率：
hadoop distcp har:///outputdir/test.har/* /smallfile2

7.Archive使用注意事项

1. Hadoop archive是特殊的档案格式。一个Hadoop archive对应一个文件系统目录。archive的扩展名是*.har；
2. 创建archives本质是运行一个Map/Reduce任务，所以应该在Hadoop集群上运行创建档案的命令； 
3. 创建archive文件要消耗和原文件一样多的硬盘空间；
4. archive文件不支持压缩，尽管archive文件看起来像已经被压缩过；
5. archive文件一旦创建就无法改变，要修改的话，需要创建新的archive文件。事实上，一般不会再对存档后的文件进行修改，因为它们是定期存档的，比如每周或每日；
6. 当创建archive时，源文件不会被更改或删除；

8.其他解决方法

# 使用Sequence File合并小文件
可以编写一个程序将所有的小文件写入到一个Sequence File中，即将文件名作为key，文件内容作为value序列化到Sequence File大文件中。

posted @ 2023-03-01 13:53 百衲本阅读(88) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· Hadoop数据存储及管理

· HDFS数据安全与隐私保护

· HDFS辅助工具-文件归档工具archive

· 大数据Hadoop之——HDFS小文件问题与处理实战操作

· 10、HDFS小文件解决方案--Archive

阅读排行：
· winform 绘制太阳，地球，月球运作规律
· TypeScript + Deepseek 打造卜卦网站：技术与玄学的结合
· AI 智能体引爆开源社区「GitHub 热点速览」
· Manus的开源复刻OpenManus初探
· 写一个简单的SQL生成工具

公告

昵称：百衲本
园龄： 9年
粉丝： 320
关注： 6

+加关注

2025年3月

日

一

二

三

四

五

六

Mr. Pan

I can because i think i can.

Hadoop小文件解决方案

1.背景

2.Archive概述

3.创建Archive

4.查看 Archive归档之后的样子

5.查看Archive归档之前的样子

6.提取Archive

7.Archive使用注意事项

8.其他解决方法

公告

搜索

常用链接

最新随笔

随笔分类 (363)

随笔档案 (380)

文章分类 (4)

文章档案 (21)

阅读排行榜

评论排行榜

推荐排行榜

最新评论