基本数据类型在内存中的存储
此博客原文地址:https://www.cnblogs.com/BobHuang/p/12539317.html
我们的数据是存储在内存上的,我们定义一个变量他就会在内存上对应一小块的地址空间,当然你可以认为他申请了一个房子。char是最小的房子,只有1B(1个字节),int就不一样了,他有4B,能表示范围也更大。可是这个究竟是什么意思呢,他有没有浪费啊。接下来我们就可以看看不同类型在内存中的存储。本文以C/C++为例,其他语言差不太多。
一、进制转换
我们需要学习下进制的相关知识,因为我们要学会2进制。世界上只有10种人,一种是懂2进制的,一种是不懂2进制的。
10进制的123为什么代表123呢,123=1*100 + 2*10 + 3*1,也就是逢10进1,10进制中每一位只会出现0~9。
我们可以写出如下代码获取3位数的前三位。
复制 //获取个位:直接取余
int g = x % 10;
//获取十位:舍去个位,再取余
int s = x / 10 % 10;
//获取百位:舍去后两位
int b = x / 100;
相信你学会这个代码可以完成TZOJ1472逆置正整数,但是我们常常遇到不是3位的,我们要怎么做呢,可以从刚才的代码入手。123=1*100 + 2*10 + 3*1=1*102 + 2*101 + 3*100,所以我们刚才的代码就是在不断地取余10得到当前这一位,除以10舍去当前位。当然我们也需要用一个数组把他存储起来,最后再进行逆置。
复制#include <bits/stdc++.h>
using namespace std;
//数字转数组函数,返回值为数组长度
//a数组传入的是一个指针,表示函数里可以修改a数组
int NumToArray(int n, int a[])
{
//是0,可以直接结束
//或者循环写成do-while形式
if (!n)
{
a[0] = 0;
return 1;
}
//定义变量l用来记录长度
int l = 0;
//n还有数可取就执行循环
while (n)
{
//n%10为当前位(也就是变量n的最后一位)
//得到当前位的数字,并加到数组a上
a[l++] = n % 10;
//丢弃当前位
n /= 10;
}
//由于我们从最后一位到了第一位,最后需要倒过来
for (int i = 0, t; i < l / 2; i++)
{
//第i位和第l-1-i位进行交换
t = a[i], a[i] = a[l - 1 - i], a[l - 1 - i] = t;
}
return l;
}
int main()
{
int n, a[100];
while (cin >> n)
{
int l = NumToArray(n, a);
for (int i = 0; i < l; i++) cout << a[i];
cout << "\n";
}
return 0;
}
如果是2进制呢,其实就是过程中的10需要换为2。如果是任意r进制呢,经过改造我们得到如下代码。你也可以自行实现下,去完成TZOJ1386: 进制转换。
复制#include <bits/stdc++.h>
using namespace std;
//数字转字符串,返回值为r进制的n
string NumToString(int n, int r)
{
//使用string类这一字符串容器
string ans = "";
//是0,特殊处理下
if (!n)
ans += '0';
//保存n的正负,默认为正
int sign = 0;
if (n < 0)
n = -n, sign = 1;
//解决16进制:下标为0的是0,下标为10的是A
string s = "0123456789ABCDEF";
//n还有数可取就执行循环
while (n)
{
//n%10为当前位(也就是变量n的最后一位)
//得到当前位的数字,并按下标变为字符加到ans上
ans += s[n % r];
//丢弃当前位
n /= r;
}
//由于我们从最后一位到了第一位,最后需要倒过来
reverse(ans.begin(), ans.end());
//还有可能是负数,加在前面
if (sign == 1)
ans = "-" + ans;
return ans;
}
int main()
{
int n, r;
while (cin >> n >> r)
{
cout << NumToString(n, r) << "\n";
}
return 0;
}
看不懂上面的代码也不要紧,你可以用NumToArray的代码再加上一个进制的参数。
二、原码反码及补码
有了进制转换的代码,我们就不用使劲算一个数的二进制位了,我们丢给我们的程序去算。
原码的英文名称是"Sign-Magnitude",反码的英文名称是"Ones' Complement",补码的反码的英文名称是"Two's complement"。
首先我们来看原码,就是"Sign"的"Magnitude",有符号的一个量,顾名思义它用一个位来表示一个量的符号(0正1负)。
比如int x=7;
7=4+2+1,他的二进制表示为111,当然我们也可以运行上述代码得到111
当然我们也可以int x=0b111,0b代表二进制,它是帮我们补充了前面的0的。
比如4bit(位)的二进制
10进制数 | 二进制数 |
---|---|
+0 | 0000 |
+1 | 0001 |
+2 | 0010 |
+3 | 0011 |
+4 | 0100 |
+5 | 0101 |
+6 | 0110 |
+7 | 0111 |
10进制数 | 二进制数 |
---|---|
-7 | 1111 |
-6 | 1110 |
-5 | 1101 |
-4 | 1100 |
-3 | 1011 |
-2 | 1010 |
-1 | 1001 |
-0 | 1000 |
10进制数 | 二进制数 |
---|---|
-7 | 1000 |
-6 | 1001 |
-5 | 1010 |
-4 | 1011 |
-3 | 1100 |
-2 | 1101 |
-1 | 1110 |
-0 | 1111 |
但是从英语这个角度看并不是这样,"Complement"是补集的意思,如果直译就是1的补集,-x(x为非负数)的反码其实就是
复制 -x = [11111...1] - x
比如4位数的(-1)就是(1)[0001]相对于[1111]这个集合的补集,也就是[1110]。
我们已经解决了(+1)和(-1)相加为0的问题,但是+0和-0还是困扰着我们,所以我们发明了补码,同样补码也是针对于负数的。
补码的意思就是针对反码的,在反码的基础上,进行+1形成新的码(“取反加1”)。
10进制数 | 二进制数 |
---|---|
-8 | 1000 |
-7 | 1001 |
-6 | 1010 |
-5 | 1011 |
-4 | 1100 |
-3 | 1101 |
-2 | 1110 |
-1 | 1111 |
另外两数相加等于0还满足吗?3和(-3)相加,[0011] + [1101] = [10000],丢掉最高位,就是[0000](0),仍然满足。
同样有失必有得,我们还得到了-8。[1000]需要从[10111]+1,然后丢掉最高位。
也就是反码表示-0的现在表示-1,表示-1的现在表示-2了,扩充了一个数字。
但是从英语这个角度看并不是这样,人家明明是Two,2的补集。没错,确实也可以这样理解,而且会更自然。
复制 -x = 2^w - x
w为位数,比如4位数的(-1)就是(1)[001]相对于(2 ^ 4)[1000]这个集合的补集,也就是[111],加上1这个表示符号的为[1111]。(-8)就是(8)[1000]相对于(2 ^ 4)[1000]的补集[0000],舍去高位,再加上符号位即[1000]。
补码的优势:
历史上有采用过反码的计算机,但是至今为止绝大部分都是补码。为什么呢,主要有两大好处。
- 保证了系统编码的连续性和一致性,避免了+0和-0这种很奇怪的表达。而且多表达了一个负数。
- 省去计算机判断符号位或者说判断+/-运算的麻烦。采用补码表示后,不管是加法还是减法都是加法运算。比如4位数的"-1+3"运算,如果用原码:10001 + 0011,结果为1100,这个结果不伦不类。我们需要检查符号位,可能还要对符号位和运算符做调整。如果用反码1110 + 0011,这样直接相加的结果不管是0001还是1001都让我们一脸懵逼。正负相加这个问题补码就可以解决,1111 + 0011 = 0010,结果得到了2。为什么呢,因为如果两个一正一负,如果正数大,那么一定会往符号为进1,符号位为0。如果两负,在相加不越界的情况下,一定会也会往符号位进1,符号位为1。这样我们就避免了对正负或加减的区别处理。
所以我们如何定义一个int为负的0b111(-7)呢,使用0b1001是不是复杂了许多,当然可以用int x=-0b111;
三、字符类型的大小范围及存储
我们可以先看看ASCII表,ASCII的值范围为[0,127](表示0到127,左右均包含)。然后我们通过下面的代码跑一下。
复制#include <bits/stdc++.h>
using namespace std;
int main()
{
char c;
cout<<"char类型的所占空间大小为"<<sizeof(c)<<"Byte\n";
cout<<"char类型的最小值为"<<CHAR_MIN<<"\n";
cout<<"char类型的最大值为"<<CHAR_MAX<<"\n";
}
我们可以通过sizeof查看其所占空间大小为1Byte(1字节),char的大小范围为[-128,127]即[-27,27-1]。1Byte=8bit,也就是1字节等于8个二进制位。你可以猜一下我下面代码的答案是多少吗,char的存储就是我们刚才所学的补码。
复制#include <bits/stdc++.h>
using namespace std;
int main()
{
char c;
c=0b11111111;
cout<<"0b11111111的char大小为"<<(int)c<<"\n";
c=0b00000000;
cout<<"0b00000000的char大小为"<<(int)c<<"\n";
c=0b10000000;
cout<<"0b10000000的char大小为"<<(int)c<<"\n";
c=0b01111111;
cout<<"0b01111111的char大小为"<<(int)c<<"\n";
}
是四个比较特殊的数哦,你可以在你本地的编译器跑一下,看看是不是你猜的。
三、整型的存储
int(整型)和long long(长整型)说俺也一样,咱们把上面的代码稍加改造也来看看。
复制#include <bits/stdc++.h>
using namespace std;
int main()
{
int a;
cout<<"int类型的所占空间大小为"<<sizeof(a)<<"Byte\n";
cout<<"int类型的最小值为"<<INT_MIN<<"\n";
cout<<"int类型的最大值为"<<INT_MAX<<"\n";
long long b;
cout<<"long long类型的所占空间大小为"<<sizeof(b)<<"Byte\n";
cout<<"long long类型的最小值为"<<LONG_MIN<<"\n";
cout<<"long long类型的最大值为"<<LONG_MAX<<"\n";
}
我们运行可以得到int类型所占空间大小是4B,大小范围为[-2147483648,2147483647],long long类型所占空间大小是8B,大小范围是[-9223372036854775808,9223372036854775807]。也就分别是32位和64位的有符号整数。
但是其实C语言标准里并没有定义int的大小,他是最方便参加计算的整数,是为了实现编译器的人可以把int变成具体CPU的原生长度。所以看到大小范围为[-32768,32767]的int也不要惊慌。其实其移植性更好了,但是注意不要溢出哦。
我们这时候还要0b吗,头痛。定义一个数是-7要写int x=0b11111111111111111111111111111001;太长了,我们会选择16进制进行输入,0x为开头就好。直接int x=0xfffffff9;即可。如果0开头,代表八进制,int x=017,x是等于15的。
注意不要整型溢出
int的最大值可以粗略认为为2e9(10位数),long long可以认为9e18(19位数)。可是为什么不是2e9*2e9呢,因为其实是31位和63位,符号位只需要一位。
神奇的memset值
我们memset一个数组的无穷值常常使用0x3f,为什么要使用这个数字呢。学过补码的我们知道int的最大值为0x7fffffff。memset是一个字节一个字节的设定,这个不重复,我们稍微取小点变成0x7f,这个数字变成了2139062143与2147483647相比变小并不是很多。0x3f3f3f3f为1061109567,小了很多。但是其实是这样的,在0x3f下,两个正无穷相加是正无穷(数学⚠️),如果0x7f就溢出了,而且0x3f3f3f3f+0x3f3f3f3f=0x7e7e7e7e已经很接近0x7fffffff了,一般情况下够用,不够用用LL的INF即可,还是0x3f。
四、浮点型的存储
浮点型就要复杂的多,我们还是老样子,看看他们的基本参数。
复制#include <bits/stdc++.h>
using namespace std;
int main()
{
float a;
cout<<"float类型的所占空间大小为"<<sizeof(a)<<"Byte\n";
cout<<"float类型的最小值为"<<FLT_MIN<<"\n";
cout<<"float类型的最大值为"<<FLT_MAX<<"\n";
double b;
cout<<"double类型的所占空间大小为"<<sizeof(b)<<"Byte\n";
cout<<"double类型的最小值为"<<DBL_MIN<<"\n";
cout<<"double类型的最大值为"<<DBL_MAX<<"\n";
}
float类型所占存储为4B,大小范围是[1.17549e-38,3.40282e+38],double类型所占存储为8B,大小范围是[2.22507e-308,1.79769e+308]。我奋力去想340282是那个数的2次方可是我想不到,而且下面的代码10个0.1相加也是不等于1。
复制#include <bits/stdc++.h>
using namespace std;
int main()
{
double a=0.1,s=0;
for(int i=0;i<10;i++)s+=a;
printf("%.20f\n",s);
}
为什么呢,因为浮点数是IEEE754标准的,和之前都不一样。看不懂也没关系,可以跳到后面的总结部分。
他把一个数子分为了三段,分别是符号位段(sign)、阶码位段(exponent)和尾数(fraction小数)字段,而且还规定了每个位段占多少位。
一个数V=(-1)s*M*2E
s决定这个数是负数还是正数(依旧0正1负),可以用一个单独的符号s直接编码符号s。
尾数(signficand)M是一个二进制小数,它的范围是1~2-ε或者是0~1-ε。
n位小数字段的编码尾数M
阶码(exponent)E的作用是对浮点数加权,这个权重是2的E次幂(可能是负数)。k位的阶码字段的编码阶码E
在单精度浮点格式(float)中,s,exp和frac字段分别为1位,8位和23位;而双精度浮点格式(double)中,s,exp和frac字段分别为1位,11位和52位。
从左到右为高位到低位
不过在表达中它分别对应三种情况
-
规格化的值
即最普遍的情况,当exp(即阶码段)既不为全0,也不为全1的情况。在这种情况下,阶码字段解释为以偏置(biased)形式表示有符号整数,即E=exp-Bias,单精度下exp是无符号数[1,254](有8位,且既不为全0,也不为全1)。Bias是等于2k-1-1的偏置值,单精度下k=23,Bias=127,因此单精度E的范围是-126~+127。
frac被描述为小数值,且0≤frac<1,其二进制表示为0.frac。尾数定义为 M=1+frac ,即M=1.frac。那么就有1≤M<2,由于总是能够调整阶码E,使得M在范围1≤M<2,所以不需要显式的表示它,这样还能获得一个额外的精度位。也就是说,在计算机内部保存M时,默认这个数的第一位总是1,因此可以被舍去,只保存后面的frac部分,等到读取的时候,再把第一位的1加上去。
比如3.14的单精度浮点表示
首先将3.14转成二进制:
整数部分3的二进制是11
小数部分0.14的二进制是:0.0010001111010111000010(0.125+0.0078125+00390625+...),所以他的22位到0位为[10001111...]
这样,3.14的二进制码就是:11.0010001111010111000010[10001111....]×20
那么用正规化表示就是:1.10010001111010111000010[10001111....]×21
方括号表示的超出23位之后的二进制部分,由于单精度浮点数尾数只有23位,所以需要舍入,由于第24位为1,且之后 不全为0,所以需要向第23位进1完成上舍入:1.10010001111010111000011×21
而其指数是1,需要加上移码127,即128,也就是指数部分为1000 0000
它是正数,所以符号为0
综上所述,3.14的单精度浮点数表示为:[0][1000 0000][1001 0001 1110 1011 1000 011]
十六进制代码为:0x4048f5c3 -
非规格化的值
当exp,即阶码域为全0时,所表示的数便为非规格化的值,该情况下的阶码值E=1-Bias(和规格化一样),尾数M=frac。
非规格化的数有两个作用:
表示数值0。格式化数中,我们总使得M≥1,因此就无法表示0。而阶码全0时,且尾数也全0时,就可以表示0了。
表示接近0.0的数。它所表示的值分布地接近于0.0,该属性成为逐渐溢出。 -
特殊值。
特殊值有两种:
阶码全为1,小数域全为0。它得到值为 +∞(s=0)或-∞(s=1),它在计算机中可以表示溢出的结果inf(Infinity),例如两个非常大的数相乘。
阶码全为1,小数域不全为0。它得到值为nan(Not a Number)。它在计算机中可以表示非法的数,例如计算根号-1时的值。
总结
浮点数这个还是非常麻烦的,可以简单理解为科学记数法的二进制表示。当然不理解也没关系,计算机组成原理这门课还是比较硬核的。
我们用刚才得到的3.14来验证一下。
复制#include <bits/stdc++.h>
using namespace std;
//共用体的所有成员占用同一段内存,修改一个成员会影响其余所有成员。
union T
{
int a;
float b;
}data;
int main()
{
//修改a为刚才我们所求PI值
data.a=0b01000000010010001111010111000011;
printf("%d\n",data.a);
printf("%.7f\n",data.b);
//修改a为刚才我们所求PI值的16进制
data.a=0x4048f5c3;
printf("%d\n",data.a);
printf("%.7f\n",data.b);
//手动赋值查看是否求对了
data.b=3.14;
printf("%d\n",data.a);
printf("%.7f\n",data.b);
}
当然这个过程也可以使用指针
复制#include <bits/stdc++.h>
using namespace std;
int main()
{
float f;
//int和float都为4字节,但是需要先强制转换为整型指针
int *i = (int*)&f;
*i=0x4048f5c3;
printf("%.7f\n",f);
return 0;
}
因为存在-0.0这个值,所以我们输出0的时候往往会fabs(a)<=eps,如果在eps内我们都会输出0。可以正常表示0,但是计算的结果可能并不能如愿表示0。
他们的精度就是尾数时遇到的ε,对应的就是尾数位数,双精度浮点数的ε = 2-52 ≈ 2.220446049250313e-16,单精度的ε = 2-23 ≈ 1.1920928955078125e-7,也就是double的有效位数为15~16位,float的有效位数为6~7位。
最大值的话,我们尽力往公式里套,比如单精度最大值V=(-1)0*(2-2-23)*2127≈2128≈3.40282e+38
最小值呢V=(-1)0*(1+2-23)*2-126≈1.0000 0000 0000 0000 0000 001*2-126≈1.17549e-38
这个最小值怎么不是负的,恭喜你发现了盲点,这个最小值指的就是能表示的最接近0的最小值,改一下符号位就好了。
真假5
像 1.25、1.75、2.375 这些 .5 是刚好 .5,也就是满足2^n次方。但1.15、4.265 这些 5 都是假的,因为 IEEE754 浮点数本身就不能精确表示这些数,所以a=1.15不是真正的5,10个0.1相加也不会得到1。
保留小数
浮点数本身的存储也不准确,IEEE754 默认方法是ROUND_HALF_EVEN(银行家舍入法,5后若全为0且更偏向偶数),比四舍五入更精确。
浮点数(double)的memset
最大值推荐 0x7f,最小值推荐 0xfe。
浮点数的3个奇怪特性
- 浮点数不能精确表示其范围内的所有数。
- 可精确表示的数不是均匀分布的,越靠近0越稠密。
- 不遵守普遍的算术属性,比如结合律(有可能会被卡精度)。
本文来自博客园,作者:暴力都不会的蒟蒻,转载请注明原文链接:https://www.cnblogs.com/BobHuang/p/12539317.html
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步