内存中的数据对齐(转)
一.为何要字节对齐
简单来说就是提高cpu对内存的访问效率。为了访问未对齐的内存,处理器需要作两次内存访问;然而,对齐的内存访问仅需要一次访问。比如有些平台每次读都是从偶地址开始,如果一个int型(假设为32位系统)存放在偶地址开始的地方 ,那么读一个周期就可以读出这32bit,而如果存放在奇地址开始的地方,就需要读2个周期,并对两次读出的结果的高低字节进行拼凑才能得到该32bit数据。
二.基本概念
(1)数据类型自身的对齐值:任何基本数据类型T的自身对齐值就是T的大小,即sizeof(T)。char型、short型、int型、long型、float型、double型的自身对齐值分别为1、2、4、4、4、8,单位为字节。
(2)结构体或者类的自身对齐值:其成员变量自身对齐值中最大的那个值。
(3)指定对齐值:使用#pragma pack(value)时指定的对齐值。
(4)数据成员、结构体和类的有效对齐值:自身对齐值和指定对齐值中小的那个值。
(5)圆整值:编译器对结构体进行圆整(即,在结构体最末填充一定的字节)。圆整值大小为结构体的自身对齐值与#pragma pack(value)中指定的对齐值中较小的那个值。
三.字节对齐规则
(1)结构体变量的首地址能够被结构体有效对齐值整除。(一般把最外层结构体的首地址当成0x0000)
(2)结构体每个成员相对于结构体首地址的偏移量(offset)都是该成员有效对齐值的整数倍。如有需要,编译器会在成员之间加上中间填充字节。
(3)最后对结构体进行圆整操作,结构体总大小为结构体有效对齐值的整数倍,如有需要,编译器会在最末一个成员之后加上末尾填充字节来进行圆整。
其实union(共用体)的各个成员是以同一个地址开始存放的,每一个时刻只可以存储一个成员,这样就要求它在分配内存单元时候要满足两点:
1.一般而言,共用体类型实际占用存储空间为其最长的成员所占的存储空间;
2.若是该最长的存储空间对其他成员的元类型(如果是数组,取其类型的数据长度,例int a[5]为4)不满足整除关系,该最大空间自动延伸;
我们来看看这段代码:
union mm
{
char a;//元长度1
int b[5];//元长度4
double c;//元长度8
int d[3];
};
本来mm的空间应该是sizeof(int)*5=20;
但是如果只是20个单元的话,那可以存几个double型(8位)呢?两个半?当然不可以,
所以mm的空间延伸为既要大于20,又要满足其他成员所需空间的整数倍,即24
所以union的存储空间先看它的成员中哪个占的空间最大,拿他与其他成员的元长度比较,如果可以整除,ok
四.实例分析
<实例一>
- struct B
- {
- char b;
- int a;
- short c;
- };
假 设B从地址空间0x0000开始排放。该例子中没有定义指定对齐值,在笔者环境下,该值默认为4。第一个成员变量b的自身对齐值是1,比指定或者默认指定对齐值4小,所以其有效对齐值为1,所以其存放地址0x0000,符合0x0000%1=0。第二个成员变量a,其自身对齐值为4,所以有效对齐值也为4, 所以只能存放在起始地址为0x0004到0x0007这四个连续的字节空间中,符合0x0004%4=0,且紧靠第一个变量。第三个变量c,自身对齐值为 2,所以有效对齐值也是2,可以存放在0x0008到0x0009这两个字节空间中,符合0x0008%2=0。所以从0x0000到0x0009存放的 都是B内容。再看数据结构B的自身对齐值为其数据成员中最大对齐值(这里是b)所以就是4,所以结构体的有效对齐值也是4。根据结构体圆整的要求, 0x0009到0x0000=10字节,(10+2)%4=0。所以0x0000A到0x000B也为结构体B所占用。故B从0x0000到0x000B 共有12个字节,sizeof(struct B)=12。
其实如果就这一个就来说它已将满足字节对齐了,因为它的起始地址是0,因此肯定是对齐的,之所以在后面补充2个字节,是因为编译器为了实现结构数组的存取效率,试想如果我们定义了一个结构B的数组,那么第一个结构起始地址是0没有问题,但是第二个结构呢?按照数组的定义,数组中所有元素都是紧挨着的,如果我们不把结构的大小补充为4的整数倍,那么下一 个结构的起始地址将是0x0000A,这显然不能满足结构的地址对齐了,因此我们要把结构补充成有效对齐大小的整数倍。其实诸如:对于char型数据,其 自身对齐值为1,对于short型为2,对于int、float、double类型,其自身对齐值为4,这些已有类型的自身对齐值也是基于数组考虑的,只是因为这些类型的长度已知了,所以他们的自身对齐值也就已知了。
<实例二>
- #pragma pack (2) /*指定按2字节对齐*/
- struct C
- {
- char b;
- int a;
- short c;
- };
- #pragma pack () /*取消指定对齐,恢复缺省对齐*/
第 一个变量b的自身对齐值为1,指定对齐值为2,所以,其有效对齐值为1,假设C从0x0000开始,那么b存放在0x0000,符合0x0000%1= 0;第二个变量,自身对齐值为4,指定对齐值为2,所以有效对齐值为2,所以顺序存放在0x0002、0x0003、0x0004、0x0005四个连续 字节中,符合0x0002%2=0。第三个变量c的自身对齐值为2,所以有效对齐值为2,顺序存放在0x0006、0x0007中,符合 0x0006%2=0。所以从0x0000到0x00007共八字节存放的是C的变量。又结构体C的自身对齐值为4,所以C的有效对齐值为2。又8%2=0,C 只占用0x0000到0x0007的八个字节。所以sizeof(struct C)=8.
五.如何修改编译器的默认对齐值?
1.在VC IDE中,可以这样修改:[Project]|[Settings],c/c++选项卡Category的Code Generation选项的Struct Member Alignment中修改,默认是8字节。
2.在编码时,可以这样动态修改:#pragma pack (vaule).注意:是pragma而不是progma.
(2)结构体每个成员相对于结构体首地址的偏移量(offset)都是该成员有效对齐值的整数倍。如有需要,编译器会在成员之间加上中间填充字节。
(3)结构体中的复合成员相对于结构体首地址的偏移量(offset)是该复合成员有效对齐值的整数倍。如有需要,编译器会在成员之间加上中间填充字节。 (3)最后对结构体进行圆整操作,结构体总大小为结构体有效对齐值(其成员变量自身对齐值以及复合成员结构体中的自身对齐值中最大的那个值)的整数倍,如有需要,编译器会在最末一个成员之后加上末尾填充字节来进行圆整,。