字节序:大端法和小端法
什么是大端法和小端法?
在几乎所有的机器上,多字节对象都被存储为连续的字节序列,对象的地址为所使用字节中的最小地址。
例如,假设一个类型为int的变量x的地址为0x100,即&x的值为0x100。那么x的4个字节将被存储在
存储器的0x100,0x101,0x102和0x103的位置。
字节序即为多字节对象存储在内存中的字节顺序,有两种不同的存储方案:大端法和小端法。现代的处理器大多为双端法,大小端都支持,可以配置称大端法或者小端法。
大端法
最高有效字节在最前面的方式称为大端法,例如假设变量x类型为int型,位于地址0x100的地方,其16进制值为0x12345678,地址范围为0x100到0x103字节。
对于大端法的机器来说:
0x100 | 0x101 | 0x102 | 0x103 |
---|---|---|---|
12 | 34 | 56 | 78 |
由上图可见,地址从左向右增长,x的最高有效字节12在最前面存储。这正好和我们平时书写习惯一致,先书写最高有效字节,再依次写其余字节。
小端法
最低有效字节在最前面的方式成为小端法,这正好和大端法相反,仍然用大端法中举的例子说明:
0x100 | 0x101 | 0x102 | 0x103 |
---|---|---|---|
78 | 56 | 34 | 12 |
由上图可见,地址依然从左向右增长,x的最低有效字节在最前面存储,与大端法相反。
如何判断我的机器是大端法还是小端法?
在《UNIX网络编程》上有一个程序可以判断一个机器是大端法还是小端法,我稍加改造了一下:
#include<stdio.h>
#include<stdlib.h>
int
main(int argc, char **argv)
{
union {
short s;
char c[sizeof(short)];
} un;
un.s = 0x0102;
if (sizeof(short) == 2) {
if (un.c[0] == 1 && un.c[1] == 2)
printf("大端法\n");
else if (un.c[0] == 2 && un.c[1] == 1)
printf("小端法\n");
else
printf("不能判断\n");
} else
printf("sizeof(short) = %d\n", sizeof(short));
exit(0);
}
大端法和小端法对程序员有什么影响?
多数程序员不必关系所使用的机器是大端法还是小端法,在大多数情况下都不会出问题,但在某些特殊情况下这有可能成为问题:
1.编写网络程序时,主机之间通过网络相互通信,不同主机之间可能采用不同的方法,而且网络字节序和主机字节序也可能不同。
当小端法机器产生的数据被发送到大端法机器或者反方向发送时会发现接受程序子里面的字节成了反序的。为了避免这种情况的发
生,规定网络应用程序在将数据发送之前现将数据转换称网络字节序,在接收主机那边,主机再将网络字节序的数据转换成适合本
主机的主机字节序,从而避免了字节序异常。(网络字节序为大端法)
网络编程中常用的转换函数有如下几个:
uing16_t htons(uint16_t host16bitvalue); // 参数为16位主机字节序的值,返回值是16位网络字节序的值
uint32_t htonl(uint32_t host32bitvalue); // 参数为32位主机字节序的值,返回值是32位网络字节序的值
uint16_t ntohs(uint16_t net16bitvalue); // 参数为16位网络字节序的值,返回值是16位主机字节序的值
uint32_t ntohl(uint32_t net32bitvalue); // 参数为16位网络字节序的值,返回值是16位主机字节序的值
2.当调试程序时常常需要将程序编译成汇编形式,当阅读汇编代码时数据的字节序很重要,需要根据自己的机器是大端法还是小
端法来不同对待,以免搞错字节顺序。
3.当编写规避正常类型系统的程序时,在C语言中可以使用强制类型转换来允许以一中类型引用一个对象,而这种数据类型与创建
这个对象时定义的数据类型不同,大多数应用编程都不推荐这种编码技巧,但是它们对于系统级编程来说十分有用。
参考资料:
《深入理解计算机系统》2nd
《UNIX网络编程 卷一》3th