lakefs 分支模型

lakefs 尽管是支持了类似git 的分支模型,但是了解处理机制还是比较重要的,至少可以更好的利用lakefs进行系统的建设

repositories

lakefs 的repository 是一个逻辑namespace,用来组合分支,对象,以及提交,和s3 的bucket 是相似的

branches

分支类似git 的概念,当创建一个分支的时候使用的是一个一致性快照,和其他分支以及变动隔离
当我们在一个隔离的分支产生一个变动的时候,我们可以合并回我们的原始分支,这个操作是原子的

commits

提交是不可变的检查点,包含某一个时间整个repo 的快照,特别类似git,每个提交包含元数据(谁操作,什么时候,以及任意的key,value)
使用commits,我们可以查看我们data lake 某个时间点的类似,确保是我们需要的数据
lakefs 中,不同的用户可以查看不用的分支

objects

objects 类似s3 中的对象,lakefs 不关注存储的内容,不像git 那样,lakefs 是不关注存储的对象内容的,当合并的两个分支更新了同一个文件,这样就会出现
冲突了,需要用户自己解决(这个是一个使用中应该注意的)
主要的原因是lakefs 只是进行存储的管理,包含了一个指向内部存储的一个指针,并不处理具体里边的内容

说明

lakefs 尽管是支持git 特性,但是还是有差别的,了解还是比较有用的

参考资料

https://docs.lakefs.io/understand/branching-model.html

posted on 2022-02-11 21:33  荣锋亮  阅读(137)  评论(0编辑  收藏  举报

导航