大端(big endian)和小端(little endian)

http://www.cnblogs.com/Romi/archive/2012/01/10/2318551.html

当前的存储器，多以byte为访问的最小单元，当一个逻辑上的地址必须分割为物理上的若干单元时就存在了先放谁后放谁的问题,于是端(endian)的问题应运而生了,对于不同的存储方法,就有大端(big-endian)和小端(little- endian)两个描述。

字节排序按分为大端和小端，概念如下

大端(big endian):低地址存放高有效字节

小端(little endian):低字节存放地有效字节

现在主流的CPU,intel系列的是采用的little endian的格式存放数据，而motorola系列的CPU采用的是big endian，ARM则同时支持 big和little，网络编程中,TCP/IP统一采用大端方式传送数据，所以有时我们也会把大端方式称之为网络字节序。

特别需要注意的是，C/C++语言编写的程序里数据存储顺序是跟编译平台所在的CPU相关的，而 JAVA编写的程序则唯一采用big endian方式来存储数据。这里我就只讨论C/C++语言的情况。

1.大端和小端的方式及判断

举个例子说明，我的机子是32位windows的系统，处理器是AMD的。对于一个int型数0x12345678,为方便说明，这里采用16进制表示。这个数在不同字节顺序存储的CPU中储存顺序如下：

0x12345678 16进制，两个数就是一字节

高有效字节——>低有效字节： 12 34 56 78

低地址位高低址位

大端： 12 34 56 78

小端： 78 56 34 12

下面验证下本机CPU属于哪种字节存储顺序。代码如下：

#include <iostream> 
 
using namespace std;
 
typedef unsigned int UINT;
typedef unsigned char UCHAR;
 
int main()
{
    UINT i=0x12345678;
    cout<<hex<<i<<endl;
    UCHAR *p = (UCHAR*)&i;          //将i的地址传给数组指针p，实际上p指向的地址是i在内存中存储的第一个字节，大端就是0x12，小端就是0x78
    if((*p==0x78)&(*(p+1)==0x56))        
        cout<<"小端"<<endl;
    else if((*p==0x12)&(*(p+1)==0x34))
        cout<<"大端"<<endl;
    else
        cout<<"这是神马字节顺序呢？";
    return 0;
}

调试显示时小端，我用的机子字节存储为小端方式。

2.大端和小端的字节转换

当两台采用不同字节序的主机通信时，在发送数据之前都必须经过字节序的转换成为网络字节序(即大端方式)后再进行传输。此外用C/C++在小端方式的机器上编写的程序与java程序互通时也要进行大端和小端的转换。

这里所谓转换就是改变字节的排序，使交互时数据保持一致。举一个例子，还是16进制表示的数0x12345678，在小端机器上排序为0x78563412,当内存中这样的数传输时，在大端方式下就是0x78563412这个值，与原值不同，要想与原值相同，在传输前，在大端方式下就该是0x12345678，这时原数在内存中为0x12345678，即将原数据0x12345678在内存存储序列为0x12345678，也就是要转换成大端方式。

要传输值：12 34 56 78

不转换时，小端：78 56 34 12

转换为大端：12 34 56 78

根据上面的大端和小端字节排序，可以方便的用移位运算完成转换功能。从小端转到大端代码如下：

#include <iostream>
 
using namespace std;
 
typedef unsigned int UINT;
typedef unsigned char UCHAR;
 
int main()
{
    UINT i=0x12345678;
    cout<<hex<<i<<endl;
    UCHAR *p = (UCHAR*)&i; 
    UINT num,num1,num2,num3,num4;
    num1=(UINT)(*p)<<24;
    num2=((UINT)*(p+1))<<16;
    num3=((UINT)*(p+2))<<8;
    num4=((UINT)*(p+3));
    num=num1+num2+num3+num4;
 
    cout<<"num1:"<<hex<<num1<<endl;     //看num1的16进制表示，下同
    cout<<"num2:"<<hex<<num2<<endl;
    cout<<"num3:"<<hex<<num3<<endl;
    cout<<"num4:"<<hex<<num4<<endl;
    cout<<"num:"<<hex<<num<<endl;
 
    unsigned char *q = (unsigned char*)&num;
    if((*q==0x78)&(*(q+1)==0x56))          
        cout<<"小端"<<endl;
    else if((*q==0x12)&(*(q+1)==0x34))
        cout<<"大端"<<endl;
    else
        cout<<"这是神马字节顺序呢？";
    return 0;
}

至于说(UINT)(*p)为什么要移24位，其实是很好理解的，将0x00000012变成0x12000000，不就是向左移24位吗。

当然，向上面这样写时为了方便理解，可以更简单的写一个函数用于完成上面的转换功能，函数如下：

UINT EndianConvertLToB(UINT InputNum) {
    UCHAR *p = (UCHAR*)&InputNum;
    return(((UINT)*p<<24)+((UINT)*(p+1)<<16)+
               ((UINT)*(p+2)<<8)+(UINT)*(p+3));
}

同样的原理适用于大端转小端，但是大端转小端时移位有差别，函数如下：

UINT EndianConvertBToL(UINT InputNum) {
    UCHAR *p = (UCHAR*)&InputNum;
    return(((UINT)*p)+((UINT)*(p+1)<<8)+
               ((UINT)*(p+2)<<16)+(UINT)*(p+3)<<24);
}

网络字节序和主机字节序

1、大端、小端字节序

考虑一个16位整数，它由2个字节组成。内存中存储这两个字节有两种方法：一种是将低序字节存储在起始地址，这称为小端（little-endian）字节序；另一种方法是将高序字节存储在起始地址，这称为大端（big-endian）字节序。如下所示：

术语“大端”和“小端”表示多个字节值的哪一端（小端或大端）存储在该值的起始地址。

遗憾的是，这两种字节序之间没有标准可循，两种格式都有系统使用。比如，Inter x86、ARM核采用的是小端模式，Power PC、MIPS UNIX和HP-PA UNIX采用大端模式。

2、网络字节序和主机字节序

网络字节序

　　网络字节序是TCP/IP中规定好的一种数据表示格式，它与具体的CPU类型、操作系统等无关，从而可以保证数据在不同主机之间传输时能够被正确解释。网络字节序采用big endian排序方式。

主机字节序

　　不同的机器主机字节序不相同，与CPU设计有关，数据的顺序是由cpu决定的，而与操作系统无关。我们把某个给定系统所用的字节序称为主机字节序（host byte order）。比如x86系列CPU都是little-endian的字节序。

　　由于这个原因不同体系结构的机器之间无法通信,所以要转换成一种约定的数序,也就是网络字节顺序。

网络字节序与主机字节序之间的转换函数：htons(), ntohs(), htons()，htonl()，位于头文件<netinet/in.h>，htons和ntohs完成16位无符号数的相互转换，htonl和ntohl完成32位无符号数的相互转换。

在使用little endian的系统中，这些函数会把字节序进行转换；

在使用big endian类型的系统中，这些函数会定义成空宏；

在网络程序开发时或是跨平台开发时，也应该注意保证只用一种字节序，不然两方的解释不一样就会产生bug。

3、IP地址的三种表示格式及在开发中的应用

1）点分十进制表示格式

2）网络字节序格式

3）主机字节序格式

用IP地址127.0.0.1为例：

　　第一步 127 . 0 . 0 . 1 把IP地址每一部分转换为8位的二进制数。

　　第二步 01111111 00000000 00000000 00000001 = 2130706433 （主机字节序）

　　然后把上面的四部分二进制数从右往左按部分重新排列，那就变为：

　　第三步 00000001 00000000 00000000 01111111 = 16777343 （网络字节序）

eg:

　　struct sockaddr_in addrSrv;

//　　addrSrv.sin_addr.S_un.S_addr=htonl(2130706433);　　

　　addrSrv.sin_addr.S_un.S_addr = inet_addr("127.0.0.1");

　　addrSrv.sin_family=AF_INET;

　　addrSrv.sin_port=htons(6000);

4、inet_aton()、inet_addr()和inet_aton()函数

头文件： <arpa/inet.h>

1）int inet_aton（const char *strptr, struct in_addr *addrptr）;

将strptr所指C字符串转换成一个32位的网络字节序二进制值，并通过指针addrptr来存储。若成功则返回1，否则返回0。

2）in_addr_t inet_addr(const char *strptr)

若字符串有效，则返回值为32位的网络字节序二进制值，否则为INADDR_NONE。

该函数存在一个问题，所有2^32个可能的二进制值都是有效的IP地址（0.0.0.0---255.255.255.255），但是当出错时该函数返回INADDR_NONE常值（通常是一个32位均为1的值）。这意味着点分十进制数串255.255.255.255不能由该函数处理，因为它的二进制值用来指示该函数失败。所以该函数已经被废弃，应该尽量用inet_aton()函数，或者将要说到的inet_pton()函数。

3）char *inet_ntoa(struct in_addr inaddr);

将一个32位的网络字节序二进制值IPv4地址转换成相应的点分十进制数串。该函数以一个结构而不是以指向该结构的一个指针作为其参数。

返回：指向一个点分十进制数串的指针

5、inet_pton()和inet_ntop()函数

这两个函数是随着IPv6出现的新函数，对于IPv4地址和IPv6地址都适用。函数名中p和n分别代表表达（presentation）和数值（numeric）。

头文件： <arpa/inet.h>