计算机只能处理数字,如果要处理文本(字符串),必须转化为数字。最早的计算机在设计时采用8个bit表示一个字节,所以,一个字节能表示的最大的整数就是255。因此,各个国家的语言因为要编码到计算机里的字符数量不同,所需的字节数不同。
其中代表性的编码格式有:ASCII,GB2312,UTF-8等。
ASCII: 只有127个字符,仅需要编码成1个字节。
GB2312:适用于汉字处理,处理中文显然一个字节是不够的,至少需要两个字节。
UTF-8:编码把一个Unicode字符根据不同的数字大小编码成1-6个字节,常用的英文字母被编码成1个字节,汉字通常是3个字节,只有很生僻的字符才会被编码成4-6个字节。