字符集
字符集
首先明确:
计算机内部所有的信息的存储、计算、传输都二进制形式进行。
字符:
文字与符号的集合,每个国家都有自己的字符集,包含文字、图形符号、数字。
字符集:
字符的集合,每个国家都有自己的字符集(中国:gbk、gbk2312、big5、gb18030)
字符编码:
由于计算机只能识别二进制的数据(1011101),为了让计算机能够存储现实中的信息,那么就需将字符与计算能够存储的二进制数建立一种一一对应的关系。就是对编码使用二进制进行编码,简称字符编码。
ASCII
字符编码的过程:
第一步:收集本国语系中所使用的字符(文字、图形符号、数字),形成如下的形式:
第二步:对第一步产生 的结果进行二进制的编码
gb2312 1980年国家信息产业部编码的gb2312的字符集,包含常用的5000个汉字
gbk 在gb2312的基础上进行扩展,包含40000个汉字
字符编码的统一:
为了方便国际之间的信息的交流,国际组织编码一个UNICODE字符集,包含几乎全部国家的字符。
各个国家在编码字符标准的时候,字符集与字符编码几乎时同时进行的,所以我们平常所表述的字符集即指字符集又指的是字符编码
例如:
字符集 编码集
ASCII ASCII
GBK GBK
GB2312 GB2312
UNICODE 就不叫UNICODE编码集,而叫UTF8 (占用3个字节)