内存对齐

看书看到内存对齐一段时,突然想研究一下内存对齐最底层的原理.查找资料后总结如下.

先用一句话来概括:
数据项只能存储在地址是数据项大小的整数倍的内存位置上” 例如int是4个字节,则只能在地址是0,4,8等位置上(即最后字节可以整除4).

不同的系统有不同的对齐系数(一般32位系统是4字节(正好是32位数据线宽度),64位是8),,可以通过#pragma pack(n)来设置.大于N的类型按N为基准来对齐.小于N的按自己为基准对齐.
如对齐系数是4,
struct test{
    int a; sizeof(a) = 4 == 4,按4对齐(占据0-3)
    char b; sizeof(b) == 1 < 4,按1对齐(占据4)
    double c; sizeof(c) == 8 > 4,按4对齐(占据8-15)
}
最后再整体对齐.对齐规则为test中最大的类型与对齐系数相比较.以其中较小的为基准.如test中最大为c,则以min(c, 对齐系数为基准).所以是4.
总共16个字节

其中进入一个函数时会首先进行栈对齐.保证以后的存取是效率的.

CPU 的访问粒度不仅仅是大小限制,地址上也有限制。也就是说,CPU 只能访问对齐地址上的固定长度的数据。
以四字节对齐为例,就是只能访问 0x0-0x3, 0x4-0x7, 0x8-0xc 这样的(闭)区间,不能跨区间访问。4字节32位,正好是数据总线宽度.
如果真正需要访问的数据并没有占据那个区间的全部字节范围,还有另外的信号线来指出具体操作哪几个字节,类似于掩码的作用。好像也有些架构干脆就不允许这种部分访问,强制要求按粒度访问。

如果一个数据跨越了两个这样的区间,那么就只能将这个数据的操作拆分成两部分,分别执行,效率当然就低了。

CPU在取数据时使用缓存,每次缓冲固定大小的数据(32位系统一次缓存32位即4字节,64位一次缓存64位即8字节,应该是缓存在寄存器里)

对齐原因小结:各个硬件平台对存储空间的处理上有很大的不同。一些平台对某些特定类型的数据只能从某些特定地址开始存取。比如有些架构的CPU在访问一个没有进行对齐的变量的时候会发生错误,那么在这种架构下编程必须保证字节对齐.其他平台可能没有这种情况,但是最常见的是如果不按照适合其平台要求对数据存放进行对齐,会在存取效率上带来损失。比如有些平台每次读都是从偶地址开始,如果一个int型(假设为32位系统)如果存放在偶地址开始的地方,那么一个读周期就可以读出这32bit,而如果存放在奇地址开始的地方,就需要2个读周期,并对两次读出的结果的高低字节进行拼凑才能得到该32bit数据。显然在读取效率上下降很多。


一、内存对齐的原因

大部分的参考资料都是如是说的:

1、平台原因(移植原因):不是所有的硬件平台都能访问任意地址上的任意数据的;某些硬件平台只能在某些地址处取某些特定类型的数据,否则抛出硬件异常。

2、性能原因:数据结构(尤其是栈)应该尽可能地在自然边界上对齐。原因在于,为了访问未对齐的内存,处理器可能需要作两次内存访问(如32位CPU一次取4字节的数据,0x0-0x3,如果正好两字节的数据存储在0x3-0x4上,则CPU会进行两次读取,效率太低.);而对齐的内存访问仅需要一次访问。


以下为摘抄
来自:http://www.cnblogs.com/OYK/archive/2012/02/17/2356050.html


二、对齐规则

每个特定平台上的编译器都有自己的默认“对齐系数”(也叫对齐模数)。程序员可以通过预编译命令#pragma pack(n),n=1,2,4,8,16来改变这一系数,其中的n就是你要指定的“对齐系数”。

规则:

1、数据成员对齐规则:结构(struct)(或联合(union))的数据成员,第一个数据成员放在offset为0的地方,以后每个数据成员的对齐按照#pragma pack指定的数值和这个数据成员

自身长度中,比较小的那个进行。

2、结构(或联合)的整体对齐规则:在数据成员完成各自对齐之后,结构(或联合)本身也要进行对齐,对齐将按照#pragma pack指定的数值和结构(或联合)最大数据成员长度中,比较小的那个进行。

3、结合1、2可推断:当#pragma pack的n值等于或超过所有数据成员长度的时候,这个n值的大小将不产生任何效果。



三、试验

下面我们通过一系列例子的详细说明来证明这个规则

编译器:GCC 3.4.2、VC6.0

平台:Windows XP



典型的struct对齐

struct定义:

#pragma pack(n) /* n = 1, 2, 4, 8, 16 */

struct test_t {

int a;

char b;

short c;

char d;

};

#pragma pack(n)

首先确认在试验平台上的各个类型的size,经验证两个编译器的输出均为:

sizeof(char) = 1

sizeof(short) = 2

sizeof(int) = 4



试验过程如下:通过#pragma pack(n)改变“对齐系数”,然后察看sizeof(struct test_t)的值。



1、1字节对齐(#pragma pack(1))

输出结果:sizeof(struct test_t) = 8 [两个编译器输出一致]

分析过程:

1) 成员数据对齐

#pragma pack(1)

struct test_t {

int a;  /* 长度4 > 1 按1对齐;起始offset=0 0%1=0;存放位置区间[0,3] */

char b;  /* 长度1 = 1 按1对齐;起始offset=4 4%1=0;存放位置区间[4] */

short c; /* 长度2 > 1 按1对齐;起始offset=5 5%1=0;存放位置区间[5,6] */

char d;  /* 长度1 = 1 按1对齐;起始offset=7 7%1=0;存放位置区间[7] */

};

#pragma pack()

成员总大小=8



2) 整体对齐

整体对齐系数 = min((max(int,short,char), 1) = 1

整体大小(size)=$(成员总大小) 按 $(整体对齐系数) 圆整 = 8 /* 8%1=0 */ [注1]



2、2字节对齐(#pragma pack(2))

输出结果:sizeof(struct test_t) = 10 [两个编译器输出一致]

分析过程:

1) 成员数据对齐

#pragma pack(2)

struct test_t {

int a;  /* 长度4 > 2 按2对齐;起始offset=0 0%2=0;存放位置区间[0,3] */

char b;  /* 长度1 < 2 按1对齐;起始offset=4 4%1=0;存放位置区间[4] */

short c; /* 长度2 = 2 按2对齐;起始offset=6 6%2=0;存放位置区间[6,7] */

char d;  /* 长度1 < 2 按1对齐;起始offset=8 8%1=0;存放位置区间[8] */

};

#pragma pack()

成员总大小=9

2) 整体对齐

整体对齐系数 = min((max(int,short,char), 2) = 2

整体大小(size)=$(成员总大小) 按 $(整体对齐系数) 圆整 = 10 /* 10%2=0 */



3、4字节对齐(#pragma pack(4))

输出结果:sizeof(struct test_t) = 12 [两个编译器输出一致]

分析过程:

1) 成员数据对齐

#pragma pack(4)

struct test_t {

int a;  /* 长度4 = 4 按4对齐;起始offset=0 0%4=0;存放位置区间[0,3] */

char b;  /* 长度1 < 4 按1对齐;起始offset=4 4%1=0;存放位置区间[4] */

short c; /* 长度2 < 4 按2对齐;起始offset=6 6%2=0;存放位置区间[6,7] */

char d;  /* 长度1 < 4 按1对齐;起始offset=8 8%1=0;存放位置区间[8] */

};

#pragma pack()

成员总大小=9



2) 整体对齐

整体对齐系数 = min((max(int,short,char), 4) = 4

整体大小(size)=$(成员总大小) 按 $(整体对齐系数) 圆整 = 12 /* 12%4=0 */



4、8字节对齐(#pragma pack(8))

输出结果:sizeof(struct test_t) = 12 [两个编译器输出一致]

分析过程:

1) 成员数据对齐

#pragma pack(8)

struct test_t {

int a;  /* 长度4 < 8 按4对齐;起始offset=0 0%4=0;存放位置区间[0,3] */

char b;  /* 长度1 < 8 按1对齐;起始offset=4 4%1=0;存放位置区间[4] */

short c; /* 长度2 < 8 按2对齐;起始offset=6 6%2=0;存放位置区间[6,7] */

char d;  /* 长度1 < 8 按1对齐;起始offset=8 8%1=0;存放位置区间[8] */

};

#pragma pack()

成员总大小=9

2) 整体对齐

整体对齐系数 = min((max(int,short,char), = 4

整体大小(size)=$(成员总大小) 按 $(整体对齐系数) 圆整 = 12 /* 12%4=0 */



5、16字节对齐(#pragma pack(16))

输出结果:sizeof(struct test_t) = 12 [两个编译器输出一致]

分析过程:

1) 成员数据对齐

#pragma pack(16)

struct test_t {

int a;  /* 长度4 < 16 按4对齐;起始offset=0 0%4=0;存放位置区间[0,3] */

char b;  /* 长度1 < 16 按1对齐;起始offset=4 4%1=0;存放位置区间[4] */

short c; /* 长度2 < 16 按2对齐;起始offset=6 6%2=0;存放位置区间[6,7] */

char d;  /* 长度1 < 16 按1对齐;起始offset=8 8%1=0;存放位置区间[8] */

};

#pragma pack()

成员总大小=9



2) 整体对齐

整体对齐系数 = min((max(int,short,char), 16) = 4

整体大小(size)=$(成员总大小) 按 $(整体对齐系数) 圆整 = 12 /* 12%4=0 */

8字节和16字节对齐试验证明了“规则”的第3点:“当#pragma pack的n值等于或超过所有数据成员长度的时候,这个n值的大小将不产生任何效果”。



4结束语

内存分配与内存对齐是个很复杂的东西,不但与具体实现密切相关,而且在不同的操作系统,编译器或硬件平台上规则也不尽相同,虽然目前大多数系统/语言都具有自动管理、分配并隐藏低层操作的功能,使得应用程序编写大为简单,程序员不在需要考虑详细的内存分配问题。但是,在系统或驱动级以至于高实时,高保密性的程序开发过程中,程序内存分配问题仍旧是保证整个程序稳定,安全,高效的基础。

posted @ 2013-03-28 14:27  黑暗遊侠  阅读(125)  评论(0编辑  收藏  举报