Git仓库体积精简

背景

本文将介绍如果工作上遇到了git新手向远程仓库提交大体积文件或者文件夹的处理方法

精简仓库基本流程

  1. 查找大文件
  2. 遍历提交记录并删除大文件对象
  3. 本地仓库回收空间
  4. 强制推送至远端
  5. 重新拉取仓库

查看本地仓库体积

git count-objects -vH

效果如下:

查找大文件

git rev-list --all --objects | grep "$(git verify-pack -v .git/objects/pack/*.idx | sort -k 3 -n | tail -n 3 | awk -F ' ' '{print $1}')"

效果如下:

  1. git rev-list --all --objects: 按时间倒序遍历时候commit,并罗列出每次提交所有对象和对象ID
  2. git verify-pack -v .git/objects/pack/*.idx:这个命令是用来验证git pack-objects打包的Git归档文件并显示归档详情
  3. git verify-pack -v .git/objects/pack/*.idx | sort -k 3 -n | tail -n 3 | awk -F ' ' '{print $1}': 遍历.git下面idx文件,查找历史大文件,并按照大小进行排序,列出最大的3个对象id

流程:每当git rev-list --all --objects输出一次结果时,先获取"$()"的结果 ,最后通过grep来匹配

弊端: 当对象数量较多时,此命令效率会很低

如果耗时过长可分步骤来查找大文件,步骤如下:

  1. git verify-pack -v .git/objects/pack/*.idx | sort -k 3 -n | tail -n 3: 查找历史大文件,并按照大小进行排序,列出最大的3个对象id
    效果如下:
  2. git rev-list --objects --all | grep 60ecdaf1da26086feb8e6cb56f9843f6cf2029b6: 查看指定对象id的对象信息
    效果如下:

遍历提交记录并删除大文件对象

注意: 本地仓库不能有修改

git filter-branch --force --index-filter 'git rm -rf --cached --ignore-unmatch 大文件路径' --prune-empty --tag-name-filter cat -- --all

例如:git filter-branch --force --index-filter 'git rm -rf --cached --ignore-unmatch env/automake-1.15.tar ' --prune-empty --tag-name-filter cat -- --all
效果如下:

本地仓库回收空间

rm -rf .git/refs/original/              # 删除本地仓库引用
git reflog expire --expire=now --all    # 设置所有reflog条目现在过期
git gc --aggressive --prune=now         # 回收空间,移除无效或异常的文件

回收完成之后再次执行git count-objects -vH

结果如下:

强制推送至远端

git push origin --force --all

重新拉取仓库

不能在原先的本地仓库拉取代码,不然会进行合并,导致本地仓库更大

参考资料

posted @   jesonwoo  阅读(509)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
点击右上角即可分享
微信分享提示