彻底理解字节序
假设我们有一个16位整数,那么它是由2个字节组成的。
首先,我们引出一个概念,数据高字节和数据低字节。
特别要强调的是,这里的指的是数据表示形式上的高字节和低字节,不涉及(不依赖)任何存储上的具体实现。
因为后面我就会引入另一个概念,内存低地址和内存高地址。
由于计算机内存地址的基本单位是字节,也就是说每个字节占一个地址值。
那么16位整数需要2个自己的存储空间,即需要占用2个内存地址。
还有两个术语是我们会经常见到的,那就是MSB(most significant bit)和LSB(least significant bit)。
MSB和LSB都是针对数据表示形式而言的,同样也不涉及(不依赖)任何存储上的具体实现。
MSB指的是最高有效位,是数字最左边的一位。LSB指的是最低有效位,是数字最右边一位。
在讨论字节序问题上,如果文章上来不先把概念特别强调清楚,我们很容易产生混淆。
下面,我们将引出这篇文章最重要的概念了,小端(little-endian)和大端(big-endian)。
小端指的是将数据小的一端(即数据低字节)存储在起始地址(即低地址)。
小端指的是将数据大的一端(即数据高字节)存储在起始地址(即低地址)。
我们把某个主机的CPU所用的字节序称为主机字节序。
TCP/IP规定采用大端字节序来传送网络协议数据包中的多字节整数数据。也就是说网络字节序等于大端字节序。
下面我们要讲解位序了。位序与字节序一般是保持一致的。
在C语言中,位域与结构体类似,其语法规定:先声明的成员位于低地址,后声明的成员位于高地址。
那么下面的位域中:
typedef struct OneByte
{
bt0 : 1;
bt1 : 1;
bt2 : 1;
bt3 : 1;
bt4 : 1;
bt5 : 1;
bt6 : 1;
bt7 : 1;
}
成员bt0就位于一个字节中最低地址bit0处,成员bt7就位于一个字节的最地址bit7处。
上面讲的是原理,下面讲一些具体实现。
宏定义__BYTE_ORDER定义在glibc的endian.h中,其值要么为__LITTLE_ENDIAN,要么为__BIG_ENDIAN
应用程序代码中可以用如下的语句来判断大小端,#if __BYTE_ORDER == __LITTLE_ENDIAN
但是,宏定义__BYTE_ORDER不一定存在于别的libc中,因此应用程序代码中在使用__BYTE_ORDER之前还需要实现判断libc的类型。
那么如何判断你的代码使用的libc是不是glibc呢?
使用这个宏定义进行判断#ifdef __GLIBC__ ,
The symbol __GLIBC__ is defined in the header features.h, and features.h is include by stdio.h
glibc-2.19-svnr25243/libc/ports/sysdeps/unix/sysv/linux/mips/bits/endian.h
里面通过判断__MIPSEB__还是__MIPSEL__来给__BYTE_ORDER定义不同的值。
#ifdef __MIPSEB__
# define __BYTE_ORDER __BIG_ENDIAN
#else
# ifdef __MIPSEL__
# define __BYTE_ORDER __LITTLE_ENDIAN
# endif
#endif
那么__MIPSEB__和__MIPSEL__来自何方呢?
还是在同样的头文件中,我看到如下注释,重点是我加粗的文字。
The MIPS architecture has selectable endianness.
Linux/MIPS exists in two both little and big endian flavours and we
want to be able to share the installed headerfiles between both,
so we define __BYTE_ORDER based on GCC's predefines.
这说明了__MIPSEB__和__MIPSEL__是定义在所用的交叉编译器里面的。
这里总结一下,glibc的大小端定义依赖于交叉编译器的预定义设置,而应用程序判断大小端又依赖于glibc的大小端定义。