Git仓库体积精简
背景
本文将介绍如果工作上遇到了git新手向远程仓库提交大体积文件或者文件夹的处理方法
精简仓库基本流程
- 查找大文件
- 遍历提交记录并删除大文件对象
- 本地仓库回收空间
- 强制推送至远端
- 重新拉取仓库
查看本地仓库体积
git count-objects -vH
效果如下:
查找大文件
git rev-list --all --objects | grep "$(git verify-pack -v .git/objects/pack/*.idx | sort -k 3 -n | tail -n 3 | awk -F ' ' '{print $1}')"
效果如下:
git rev-list --all --objects
: 按时间倒序遍历时候commit,并罗列出每次提交所有对象和对象IDgit verify-pack -v .git/objects/pack/*.idx
:这个命令是用来验证git pack-objects
打包的Git归档文件并显示归档详情git verify-pack -v .git/objects/pack/*.idx | sort -k 3 -n | tail -n 3 | awk -F ' ' '{print $1}'
: 遍历.git下面idx文件,查找历史大文件,并按照大小进行排序,列出最大的3个对象id
流程:每当git rev-list --all --objects
输出一次结果时,先获取"$()"
的结果 ,最后通过grep
来匹配
弊端: 当对象数量较多时,此命令效率会很低
如果耗时过长可分步骤来查找大文件,步骤如下:
git verify-pack -v .git/objects/pack/*.idx | sort -k 3 -n | tail -n 3
: 查找历史大文件,并按照大小进行排序,列出最大的3个对象id
效果如下:
git rev-list --objects --all | grep 60ecdaf1da26086feb8e6cb56f9843f6cf2029b6
: 查看指定对象id的对象信息
效果如下:
遍历提交记录并删除大文件对象
注意: 本地仓库不能有修改
git filter-branch --force --index-filter 'git rm -rf --cached --ignore-unmatch 大文件路径' --prune-empty --tag-name-filter cat -- --all
例如:git filter-branch --force --index-filter 'git rm -rf --cached --ignore-unmatch env/automake-1.15.tar ' --prune-empty --tag-name-filter cat -- --all
效果如下:
本地仓库回收空间
rm -rf .git/refs/original/ # 删除本地仓库引用
git reflog expire --expire=now --all # 设置所有reflog条目现在过期
git gc --aggressive --prune=now # 回收空间,移除无效或异常的文件
回收完成之后再次执行git count-objects -vH
结果如下:
强制推送至远端
git push origin --force --all
重新拉取仓库
不能在原先的本地仓库拉取代码,不然会进行合并,导致本地仓库更大
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)