数据概述
一、认识数据的意义
DT(Data Technology,数据科技),大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要,如何利用这些大规模数据是赢得竞争的关键。
大数据的价值体现在一下几个方面:
(1)对大量消费者提供产品或服务的企业可以利用大数据进行精准营销;
(2)做小而美模式的中小微企业可以利用大数据做服务转型;
(3)面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值。
二、什么是数据?
数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。
1、数据是信息的表现形式和载体,可以是符号、文字、数字、语音、视频等。数据和信息是不可分离的,数据是信息的表达,信息是数据的内涵。数据本身没有意义,数据只有对实体行为产生影响时才会成为信息。
2、数据可以是连续的值,比如声音、图像,称为模拟数据。也可以是离散的,如符号、文字,称为数字数据。
在计算机系统中,数据以二进制信息单元0,1的形式表示,各种字母、数字符号的组合、语音、图像、视频等统称为数据,数据经过加工后就成为了信息。
三、数据的表现形式
按表达形式对计算机中的数据进行划分:
1、数字数据:由阿拉伯数字符号构成的数据,如各种统计或量测数据;
2、模拟数据:模拟数据是指在某个区间产生的连续值,如视频、图像、文字、声音等。
四、计算机数据中的数字数据表现
进制也就是进位制,是人们规定的一种进位方法。
1、十进制
(1)数码:指集合论中刻画任意集合所含元素数量多少的一个概念。
十进制的基本符号是:0、1、2、3、4、5、6、7、8、9,我们把这些称为十进制的数码,也就是基本符号,所有的十进制都是有这十个数码组成的。每位在加时都是“逢十进一”。
(2)位权:数制中每一固定位置对应的单位称为位权。
对于十进制,我们可以从0开始,对数字的各个数位进行编号,即个位起从右往左依次为编号0,1,2,……;对称的,从小数点后的数位则是-1,-2,……
2、二进制
(1)计算机中采用二进制主要原因:
①技术实现简单,计算机是由逻辑电路组成,逻辑电路通常只有两个状态,开关的接通与断开,这两种状态正好可以用“1”和“0”表示。
②简化运算规则:两个二进制数和、积运算组合各有三种,运算规则简单,有利于简化计算机内部结构,提高运算速度。
③适合逻辑运算:逻辑代数是逻辑运算的理论依据。二进制只有两个数码,正好与逻辑代数中的“真”和“假”相吻合。
④易于进行换算,二进制与十进制易于相互转换。
⑤用二进制表示数据具有抗干扰能力强,可靠性高等优点。因为每位数据只有高低两个状态,当收到一定程度的干扰时,仍能可靠地分辨出它是高还是低。
(2)二进制的数码:0和1.“逢2进一”。
(3)二进制的表现形式:方法一:(100001)2 ,方法二:100001B
(4)二进制的权位:n位上的数值代表是2n-1
(5)二进制转换十进制:方法是按权位求和
二进制数100001=1*26-1+0*25-1+0*24-1+0*23-1+0*22-1+0*21-1 =32+1=33(中间计算过程都是十进制)
(6)二进制同十进制一样也可以进行加减乘除四则运算,还可以进行逻辑运算。
3、使用除n取余法可以把十进制转换成任意n进制的数。
4、八进制数
由于二进制数据的基R较小,所以二进制的书写和阅读不方便,为此引进了八进制。八进制的基R=8=2^3,由数码0、1、2、3、4、5、6、7,并且每个数码正好对应三位二进制数,所以八进制能很好地反映二进制。八进制用下表8或数据后面加O表示。例如:二进制数据(101 010 . 010 110 100)2对应八进制数据(3 5 2.2 6 4)8或352.264O
5、十六进制
由十六个字符0~9以及A、B、C、D、E、F组成(它们分别表示十进制数10~15)。十六进制数运算规律是逢十六进一,即基R=16=2^4,通常在表示时用下标16或尾部标志H。
6、二进制与十六进制数之间的转换
由于4位二进制数恰好有16个组合状态,即1位十六进制数与4位二进制数是一一对应的,所以十六进制与二进制数的转换是十分简单的。
(1)十六进制数转换成二进制数,只要将每一位十六进制数用对应的4位二进制数替代即可--简称四位一分。
例如,(4AF8B)16转换为二进制数(0100 1010 1111 1000 1011)2
(2)二进制数转换为十六进制数,从左往右每四位一组,依次写出每组4位二进制数所对应的的十六进制数--简称四位合一位。
例如,二进制数(0001 1101 0110)2转换成十六进制数(1D6)16
转换时注意最后一组不足4位时必须加0补齐4位。
(3)二进制与八进制互转和二进制转十六进制相似只是每三位转成一位八进制,而一位八进制数转换成三位二进制数。
五、机器值与真值
1、机器值
一个数在计算机中的二进制表示形式,叫做这个数的机器数。机器数是带符号的,在计算机用一个数的最高位存放符号,正数为0,负数为1。
比如,十进制中的数 +3,计算机字长为8位,转换成二进制就是00000011.如果是 -3,就是10000011。
2、真值
因为第一位是符号位,所以机器数的形式值不等于真正的数值。例如有符号数10000011,其最高位1代表负,其真正数值是 -3而不是其形式值131(10000011转换成十进制等于131)。所以,为区别起见,将带符号的机器数对应的真正数值称为机器数的真值。
例如,0000 0001的真值= +000 000 1= +1,1000 0001的真值 = -000 0001 = -1
六、原码、反码及补码
将符号位也参与运算的方法,根据运算法则减去一个正数等于加上一个负数,即1-1=1+(-1)=0,所以机器可以只有加法而没有减法。
为了将符号参与运算,并且只保留加法,从而简化计算机运算,发明了原码、反码和补码。
1、原码
原码是符号位加上真值的绝对值,即第一位表示符号,其余位表示值。比如如果是8位二进制:
[+1]原=0000 0001
[-1]原=1000 0001
第一位是符号位,余下7位是数值位,所以8位二进制数的取值范围是:
[1111 1111,0111 1111]
即
[-127,127]
原码是人脑最容易理解和计算的表示方式。
2、反码
反码的表示方法是:正数的反码是其本身,负数的反码是在其原码的基础上,符号位不变,其余各个位取反。
[+1]=[0000 0001]原=[0000 0001]反
[-1]=[1000 0001]原=[1111 1110]反
可见如果一个反码表示的是负数,人脑无法直观的看出来它的数值,通常要将其转换成原码再计算。
3、补码
补码的表示方法是:正数的补码就是其本身,负数的补码是在其原码的基础上,符号位不变,其余各位取反,最后+1(即再反码的基础上+1)
[+1]=[0000 0001]原=[0000 0001]反=[0000 0001]补
[-1]=[1000 0001]原=[1111 1110]反=[1111 1111]补
对于负数,补码表示方式也是人脑无法直观看出其数值的,通常也需要转换成原码再计算其数值。
在计算机系统中,数值一律用补码来表示(存储)。主要原因:使用补码,可以符号位和其它位统一处理;同时,减法也可按加法来处理。另外,两个用补码表示的数相加时,如果最高位(符号位)由进位,则进位被舍弃。
[0000 0001]补+[1111 1111]补=[1 0000 0000]=0