SQL 2014 in-memory中的storage部分
基于CTP1的官方白皮书,自己理解的内容。白皮书下载地址:http://download.microsoft.com/download/F/5/0/F5096A71-3C31-4E9F-864E-A6D097A64805/SQL_Server_Hekaton_CTP1_White_Paper.pdf
-
Memory-Optimized表的存储,不再基于page,也不再从extents中分配(相比较而言,可以看Inside SQL系列中的Storage Engine部分)。主要原因是要做内存地址对齐。
-
行从堆中分配,此堆与彼堆不同(相对于传统的基于磁盘的表)
-
行与行之间不局限于在同一个表的页范围内,而是通过表的“索引”来进行关联。所以,Memory-Optimized表,至少要有一个索引。从这个角度讲,索引把表中的行串联了起来
表中行的结构
-
分为Row header及Pay load
结构如下
|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|Row Header | PayLoad |
|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|Begin TS| End TS| StamtId| IdxLinkCount|pointer 1|pointer 2|---|Pointer N| |
|8字节 |8字节|4字节 |2字节 |8字节 |8字节 |…|8字节 | |
|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
2、Rowheader的结构
-
Header包含2个8字节的时间戳。Begin-TS是行插入时的transaction的时间戳,End-TS是行删除时的transaction的时间戳。对于还没有被删除的行,End-TS的值是”infinity”。
-
Header包含一个4字节长的statement ID。Transaction中的每个statement都包含一个唯一的StmtId值,第一次创建行时,该值被创建。
-
Header包含一个2字节长的idxLinkCount,表明有多少个索引,与当前这个行link了。
-
Header包含一系列8字节长的索引指针
3、PayLoad的结构
-
Payload包含了行的数据:索引列+其他列。所以,相对于disk-based表,行就是数据,行就是索引,没有单独的索引page及data page。
4、Hash Indexes
-
Hash Indexes,每个hash index指向一个指针数组,数组中每个成员称之为hash bucket。每个memory-optimized表,最多可以包含8个索引。行上的每个索引列,都有一个hash方法进行支持,该方法决定了该行应该使用哪一个bucket进行操作。索引列中包含的相同值,对都应同一个hash值。比如表A有一个列叫做Name,另外一个列叫做City,Name列是索引列,对应的hash方法是length( name )。那么对于张三、李四两个值,他们的hash value都是2,都在同一个chain上。
-
当表为空时,插入一行,{name=张三, city=北京},那么此时的value chain存在一个数值,值为strlen(张三)=2,,如上图的pointer 1值为null(因为此时没有其他行)
-
插入第二行,{name=李四,city=上海},由于strlen(李四)依然等于2,那么上图的pointer 1指向了上面的张三那行
-
创建第二个索引在City上,此时,每个行都包含了两个索引。
-
创建hash index时,必须要制定bucket的数目,建议值是该表中该索引列唯一值的个数。这个数字,会向上与2的指数幂靠齐。如10000,会对齐到16384,50000对齐到65536。(如果行数增加,bucket不够,怎么办?)
5、Range indexes
如果不确定有多少个bucket需要创建,或者需要进行范围搜索,那么需要创建Range indexes。但是CTP1还未提供,我了个擦。