git知识总结-1.git基础之数据存储

1.前言

git包含四种对象文件:

  • blob
  • tree
  • commit
  • tag(目前没用到,暂时忽略)

2. git对象的关系

 
图 git三种对象关系
 

粗略一看,可以大致感觉出blob类似于文件,而tree类似于文件夹,而commit则是囊括这一大堆东西的一个对象。

3.SHA-1算法

SHA-1算法具体怎么计算,可以自行google。这里只说一下该算法在git数据存储中的应用。我们可以用git提供的命令来计算一个文件的SHA-1值:

echo 'test content' | git hash-object --stdin
d670460b4b4aece5915caf5c68d12f560a9fe3e4

输入字符串 "test content",git会通过SHA-1算法将其中的内容计算出一个40个字符的HASH值。

同样地,如果我们在工作区新增一个文件,然后通过 git add 加入到暂存区,那么git同样地会根据这个文件通过SHA-1算法来计算出属于该文件的一个HASH值。

这个值是唯一的!如果一个文件经过修改之后,再次计算得到的HASH值会不会和原来的一样?答案是肯定不会的,所以这个HASH值就可以充当一个标识符的作用。

4.git如何存储对象

git add后发生什么?

对于blob对象,仔细观察上一副图可以发现,blob对象的头顶都有着5个字符,"5b1b3","911e7","cba0a"。其实这一段字符串就是所属文件的HASH值的一部分。

那么它为什么会出现在blob的头顶呢?其实当把一个新的文件放入到暂存区之后,git就在自己的目录下 .git/object/ 新建了一个文件对象,来保存新加入的文件,

与此同时通过SHA-1算法来计算得到一个所属该对象的"标识",而这个对象,就是blob对象。(感觉说的有点拗口)。大致过程如下图:

 
图 git add后git对象情况

git commit后发生什么?

 
图 git commit后git对象情况

没错,又多出了两个hash值,即代表了两个对象。同时考虑到上边那个关系图可以大致猜测到,提交之后,又生成了两个对象,一个tree对象,一个commit对象。

不过如果继续带着好奇心深入下去,尝试着去打开其中的一个文件,会发现里边是一堆16进制的数字,即使用Winhex打开,也是乱码。这是因为git对原来文本中的数据进行了重新压缩编码,这样既可以保存原来的文本内容,又减少了对空间的占用。

5. git指针

提到指针,那就肯定要稍微提一下C、C++中的指针了。这种指针的作用很简单,就是存储一个变量的地址,然后根据这个地址来找到该对象,进而对其进行操作。

那么,git中的指针也是这样的吗?其实,也差不多。只不过这里存储的并不是变量的在内存上的地址,而是另外一种形式的"地址",这就是HASH值。

没错,就是上边计算出来的那个HASH值,commit对象的HASH值。

 
图 commit对象的HASH值

在上副图中,我对Doge.txt文件又进行了修改,然后又放入到暂存区中,接着进行commit提交操作,然后输入命令 git log 来查看所有提交的日志记录,我们可以看到有一排黄色的字符串,写着 commit cbfa20cb4fc205477237d3ffc88909f7cb49bd6f,这就是我们次此提交之后生成的commit对象的HASH值。那么,指针在哪里呢?不急,接下来看下边这幅图:

 
图 git指针

这个文件是master文件,在 .git/refs/ 目录下。为什么要看这个文件呢?我们在用git的时候,经常会看到master这个单词,它是git中默认的一个分支,简单点说这个master文件就是一个指针,这个指针记录着一个commit提交对象的HASH值,通过这个HASH值我们就可以找到本次提交的tree对象、blob对象,这样也就找到了我们提交的文本信息了。

6. git版本回退

回顾一下我们刚才走过的路,我们知道一次提交就对应着个commit对象,一个commit对象还带着一个唯一标识的HASH值,那么按照这样的逻辑来推理的话,两次提交就有会两个commit对象,两个不同的HASH值。如果要版本回退的话,是不是我们只要指定一下回退到第几个版本,然后获得相应的commit对象就可以做到了?先来简单地试验一下吧:

 
图  现在版本
 
图 两次提交后的commit

图中有两行数据,同时在本地版本库中也有两个版本

 
图 版本回退
 
图 回退之后的文本

上边是一个简单的版本回退示意图,通过输入命令 git reset 版本id 来回退到指定的版本。其实一个最简单的版本回退就是如此。

其实在内部,就是将带有HASH值的HEAD指针从最新的一个提交对象上转移到上一个提交对象上。

对于版本回退,还有许多其他的用法,包括reset的一些参数使用,checkout、revert命令的使用。有关它们的具体用法请戳这个传送门:
代码回滚:Reset、Checkout、Revert的选择

7.总结

这篇文章重点不是介绍git的命令用法,而是对其内部原理的一个简单分析。我写的比较白话,而且一直感觉有些地方不够完善,详略不太得当,但也没考虑好怎么去修改、完善。希望自己在以后的不断回看中,能够逐渐完善。

参考文章

Git 工作区、暂存区和版本库
使用原理视角看 Git
《Pro Git》的笔记-git内部原理
Git 用起来 の 基本原理

https://www.jianshu.com/p/9291dd3a99b3 深入git数据存储原理



作者:雅俗共赏M
链接:https://www.jianshu.com/p/9291dd3a99b3
來源:简书
简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。

posted @ 2018-09-10 17:51  jasonactions  阅读(603)  评论(0编辑  收藏  举报