C语言结构体位域及其存储

前言

在一些应用中，比如网络协议，经常会涉及对数据的某些比特位进行操作，尽管可以使用位的相关运算，但是C语言提供了位域用以支持对一个字节的某几个位进行访问，操作起来也更加方便。本文关注于说明C语言中位域的使用及其在内存中的排列规则，尤其在大小端平台下位域存储的差异。

位域的定义与引用

位域不同于一般的结构体成员，它以位为单位来定义成员的长度，因此在结构体中定义位域时，必须要指明位域成员所需要占用的二进制位数。一个简单的定义位域的示例如下：

struct Foo {
    int a: 5;   // 数据类型名    变量名：二进制位数
    int b: 3;
    int c: 2;
};

由于位域本质上是一种特殊的结构体成员，因此一般结构体成员的引用方法同样适用于位域成员。不过，需要特别注意的是，位域成员存储是以二进制位作为单位的，而内存的最小寻址单元是字节，所以不能直接引用位域成员的地址。

匿名位域

在使用位域时，如果有需要可以选择跳过某些位不使用，其方法是在结构体类型中定义位域成员时，只指定成员占用的二进制位数，而不定义成员名。由于被跳过的这些位域成员没有名字，因此在程序中也无法进行引用。

struct Foo {
   int a: 3;
   int b: 4;
   int : 5;    // 定义匿名位域，选择性跳过部分位不使用
   int c: 3;
};

特别的，我们可以根据需要定义二进制位数为0的匿名位域成员，目的是指定某些位域从一个新的内存单元开始存放。

位域的存储

结构体中位域在内存中的存储遵循以下规则：

若相邻的位域成员的类型相同，且其占用二进制位数未超过该类型可容纳的范围，则后面的成员紧接着前一个成员进行存储；
若相邻的位域成员的类型相同，但其占用二进制位数超过该类型可容纳的范围，则后面的成员从该类型占用空间之后的内存单元开始存储;
若相邻的位域成员的类型不同，则取决于编译器的实现。对于GCC编译器会尽量利用空闲的位对数据进行存储；
若位域之间定义有匿名位域成员，则匿名位域成员指定的空闲位不用于后续成员的数据存储；

说明示例1

考虑如下结构体，该结构体内的定义几乎使用到了上面提到的所有规则：
在这里插入图片描述

对于成员a、b、c再加上匿名成员占用的总内存空间并未超过unsigned short类型空间的大小，因此在unsigned short类型可容纳的范围内，这些成员可以紧挨着存放；
当后续存放成员d时，前一个unsigned short类型数据剩余的空间已不足以容纳d，因此选择下一个内存单元进行存放。

特别地，如果定义上述结构体中匿名成员占用的位数为0，那么对于第一个unsigned short类型数据在除被a、b占用区域的其它剩余空间都将不会被使用，则成员c需要从byte2开始进行存储。

说明示例2

现在考虑相邻位域成员类型不同的情况，定义如下结构体并画出其在内存中的布局如下（这个结果基于gcc编译器）：
在这里插入图片描述
GCC编译器会尽可能地利用空闲的内存位进行位域成员的存放，这里有一点需要注意的是，尽管对于第一个unsigned char类型可容纳的单字节范围在存放完成员a和b后，剩余的一位已不足以存放成员c，但是GCC编译器仍然将这一位分配给了c。

位域与大小端

系统的大小端差异会同时牵涉到字节序和比特序问题，对于结构体位域这种会涉及比特位层面数据的操作，几乎需要时刻考虑平台大小端的差异。结构体内位域成员在大小端系统上的内存分配规则如下：

无论是大端或小端模式，位域的存储都是由内存低地址向高地址分配，即从低地址字节的低位bit开始向高地址字节的高位bit分配空间；
位域成员在已分配的内存区域内，按照机器定义的比特序对数据的各个bit位进行排列。即在小端模式中，位域成员的最低有效位存放在内存低bit位，最高有效位存放在内存高bit位；大端模式则相反。

程序示例

为了说明上述的规则，参考如下代码：

struct Foo2 {
    unsigned short a: 1;
    unsigned short b: 3;
    unsigned short c: 4;
    unsigned short d: 4;
    unsigned short e: 4;
};

void test_foo2(void)
{
    union {
        struct Foo2 foo;
        unsigned short s_data;
    }val;

    val.foo.a = 1;
    val.foo.b = 3;
    val.foo.c = 5;
    val.foo.d = 7;
    val.foo.e = 15;

    printf("val is 0x%x.\n", val.s_data);

    return;
}

运行上述程序：

在小端设备上的输出的结果为：0xf757；
换成大端设备，程序的运行结果为：0xb57f。

我们画出程序所定义结构体位域成员在内存中的存储布局如下所示（因为平时多数都是在使用小端机器，在此有意将字节的顺序和字节内的位顺序进行颠倒，方便对比）：
在这里插入图片描述

为了更便于理解位域在内存中的排列规则，建议将位域成员内存空间的分配和解析分开来看：

第一步先考虑内存空间的分配，从上图中可以看到，不论大小端都是从内存地址的低位开始；
当位域成员占用空间确定之后，考虑于位域成员数据位的排布，可以看到小端系统从低bit位开始存放数据，这是符合我们预期的，而大端设备则恰恰相反，大端系统从高bit位开始存放数据，因此在大端设备中，我们需要转换下思维从内存的高位开始解析数据位。

相关参考

《C语言深度剖析》
《程序设计艺术》

posted @ 2020-06-21 21:37 Aspiresky 阅读(334) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· DeepSeek 解答了困扰我五年的技术问题。时代确实变了！
· PPT革命！DeepSeek+Kimi=N小时工作5分钟完成？
· What？废柴，还在本地部署DeepSeek吗？Are you kidding？
· 赶AI大潮：在VSCode中使用DeepSeek及近百种模型的极简方法
· DeepSeek企业级部署实战指南：从服务器选型到Dify私有化落地

公告

昵称： Aspiresky
园龄： 4年9个月
粉丝： 0
关注： 2

2025年2月

日

一

二

三

四

五

六

Aspiresky

C语言结构体位域及其存储

前言

位域的定义与引用

匿名位域

位域的存储

说明示例1

说明示例2

位域与大小端

程序示例

相关参考

公告

搜索

常用链接

随笔档案

阅读排行榜

推荐排行榜