中文字符与Unicode对应表及转换规则
大家都知道计算机内部所有的信息都是以二进制传输和存储的,人们输入的信息不管是英文还是中文最终都需要机器进行编译转换为二进制来执行,每一个二进制位(bit)有0和1两种状态,因此八个二进制位就可以组合出256种状态,每一个状态对应一个符号,就是256个符号,从00000000到11111111。这种二进制编码被称为 ASCII 码,一直沿用至今。
ASCII 码一共规定了128个字符的编码,比如空格SPACE是32(二进制00100000),大写的字母A是65(二进制01000001)。这128个符号(包括32个不能打印出来的控制符号),只占用了一个字节的后面7位,最前面的一位统一规定为0。
非 ASCII 编码
英语用128个符号编码就够了,但是用来表示其他语言,128个符号是不够的。比如,在法语中,字母上方有注音符号,它就无法用 ASCII 码表示。于是,一些欧洲国家就决定,利用字节中闲置的最高位编入新的符号。比如,法语中的é的编码为130(二进制10000010)。这样一来,这些欧洲国家使用的编码体系,可以表示最多256个符号。
另外一些常用的计算及转换