深入剖析 MongoDB 架构

http://www.oschina.net/question/54100_48729

近日，软件工程师Ricky Ho的在他的博客里发表了一篇关于MongoDB架构（ MongoDB Architecture）的博文，虽然这是一个听起来感觉很宽泛的话题，但是作者在文章中确实对MongoDB由内至外的架构进行了剖析。本文截取了其文章中的几张重点架构示意图进行简要描述。

1、MongoDB数据文件内部结构

MongoDB在数据存储上按命名空间来划分，一个Collection是一个命名空间，一个索引也是一个命名空间。
同一个命名空间的数据被分成很多个Extent，Extent之间使用双向链表连接。
在每一个Extent中，保存了具体每一行的数据，这些数据也是通过双向链接来连接的。
每一行数据存储空间不仅包括数据占用空间，还可能包含一部分附加空间，这使得在数据Update变大后可以不移动位置。
索引以BTree结构实现。

2、在MongoDB中实现事务

众所周知， MongoDB只支持对单行记录的原子性修改，并不支持对多行数据的原子操作。但是通过上图中的不可思议的操作步骤，实际上你也可以自己实现该事务。 其步骤如下：

第1步：先记录一条事务记录，将要修改的多行记录的修改值写到里面，并设置其状态为init（如果这时候操作中断，那么在重新启动时，会判断到它处于init状态，从而将其保存的多行修改操作应用到具体的行上）。
第2步：然后更新具体要修改的行，将刚才写的事务记录的标识写到它的tran字段中。
第3步：将事务记录的状态从init变成pending（如果在这时候操作中断，那么在重新启动时，会判断到它的状态是pending，这时查看其所有对应的多条要修改的记录，如果其tran值不为空，那么就进行第4步；如果值为空，说明第4步已经执行过了，直接将其状态从pending变成 commited就行）。
第4步：将需要修改的多条记录的相应值加以修改，并且unset掉之前的tran字段。
第5步：将事务记录那一条的状态从pending变成commited，事务至此完成。

其实上面的步骤并不罕见，在支持事务的DBMS中，其事务原子性提交的保证大多都与上面类似。而事务记录的tran那条记录，就类似于这些DBMS中的redolog。

3、MongoDB数据同步