Ubuntu快速删除大量文件的思路
问题描述(Problem Statement)
在Ubuntu系统下,遇到删除文件的场景,我们一般直接想到的就是使用rm命令,或者直接delete掉。那么如果我们要删除数十万甚至数百万的文件(数量特别多,尺寸特别大)时,使用rm -rf *就可能不太好用,因为要等待很长一段时间。
也许你也能想到并行使用rm命令删除:
1 | parallel rm -rf dir /{} ::: ` ls -f dir /` |
->有没有更好的方案呢?(Solution)
在这种情况之下我们可以使用linux系统命令rsync来巧妙的处理。rsync实际上用的是替换原理,处理数十万个文件也是秒删。
1.rsync安装,有些系统默认安装有该命令
1 2 3 4 5 | ubuntu系统: sudo apt-get install rsync fedora 系统: sudo yum install rsync 其他的可以源码安装,到下面的网站下载http: //rsync .samba.org |
2. rsync提供了一些跟删除有关的参数
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 | rsync --help | grep delete --del an alias for --delete-during --delete delete extraneous files from destination dirs --delete-before receiver deletes before transfer,not during --delete-during receiver deletes during transfer (default) --delete-delay find deletions during,delete after --delete-after receiver deletes after transfer,not during --delete-excluded also delete excluded files from destination dirs --ignore-errors delete even if there are I /O errors --max-delete=NUM don't delete more than NUM files 其中--delete-before接收者在传输之前进行删除操作 |
3.使用示例
- 先建立 一个空目录
1 | mkdir /tmp/blank |
- 用rsync删除目标目录
1 | rsync --delete-before -a -H - v --progress --stats /tmp/blank/ /root/files/ |
原理:为什么rsync能够快速删除大量文件?
1)rm命令大量调用了lstat64和unlink,可以推测删除每个文件前都从文件系统中做过一次lstat操作。过程:正式删除工作的第一阶段,需要通过getdirentries64调用,分批读取目录(每次大约为4K),在内存中建立rm的文件列表;第二阶段,lstat64确定所有文件的状态;第三阶段,通过unlink执行实际删除。这三个阶段都有比较多的系统调用和文件系统操作。
2)rsync所做的系统调用很少:没有针对单个文件做lstat和unlink操作。命令执行前期,rsync开启了一片共享内存,通过mmap方式加载目录信息。只做目录同步,不需要针对单个文件做unlink。
另外,在其他人的评测里,rm的上下文切换比较多,会造成System CPU占用较多——对于文件系统的操作,简单增加并发数并不总能提升操作速度。
总结:频繁做减法不如直接从头来过
把文件系统的目录与书籍的目录做类比,rm删除内容时,将目录的每一个条目逐个删除(unlink),需要循环重复操作很多次;rsync删除内容时,建立好新的空目录,替换掉老目录,基本没开销。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· DeepSeek 开源周回顾「GitHub 热点速览」
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
2017-09-21 【译】历史上的名人如何利用不同的思维方式成就自己
2017-09-21 【译】Focused and Diffuse Modes(专注与发散模式)