字符集与字符编码


字符集(charset):是一个系统支持的所有抽象字符的集合。字符是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。

常用字符集

ASCII:英语字符集,1字节,前127是英文+数字,127-255是特殊符号

GBXXXX(GB2312,GB18030):天朝字符集,2字节,包含ASCII前127位

BIG5:天朝繁体字符集

GBK:中文字符集(编码与GBXXXX不同),2字节,包含ASCII前127位

Unicode:统一码,4字节(对应编码UTF-32/UTF-16/UTF-8),包含ASCII前127位,汉字在unicode中的范围0X4E00到0x9FA5


字符编码(Character Encoding):字符集与数字系统的对应关系

常用编码

ISO-8859-1单字节编码

GBK 双字节编码

UTF-8 变长字节编码方式

UTF-32(Unicode)固定四字节

posted @ 2013-02-27 23:39  00000000O  阅读(162)  评论(0编辑  收藏  举报