字符集

字符(Character)是各种文字和符号的总称

符集(Character set)是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同,常见字符集名称:ASCII字符集、GB2312字符集、BIG5字符集、 GB18030字符集、Unicode字符集等。
对中文字符进行编码,是中文信息交流的技术基础。
 

ASCII

定义:美国信息互换标准编码    基于罗马字母表
用途:用于显示现代英语和其他西欧语言。它是现今最通用的单字节编码系统,并等同于国际标准ISO 646
 

BIG5

定义:称大五码或五大码    台湾财团法人信息工业策进会和五家软件公司宏碁 (Acer)、神通 (MiTAC)、佳佳、零壹 (Zero One)、大众 (FIC)创立,故称大五码。
用途:该字符集在中国台湾使用
 

GB2312

定义:全称为《信息交换用汉字编码字符集·基本集》    由原中国国家标准总局发布
用途:基本满足了汉字的计算机处理需要。在中国大陆和新加坡获广泛使用。
 

GB18030

定义:《信息交换用汉字编码字符集基本集的扩充》   我国政府于2000年3月17日发布的新的汉字编码国家标准,2001年8月31日后在中国市场上发布的软件必须符合本标准。
新增用途:满足中国大陆、香港台湾日本和韩国等东亚地区信息交换多文种、大字量、多用途、统一编码格式的要求。并且与Unicode 3.0版本兼容,填补Unicode扩展字符字汇“统一汉字扩展A”的内容。并且与以前的国家字符编码标准(GB2312,GB13000.1)兼容。
 

Unicode

定义:由一个名为 Unicode 学术学会(Unicode Consortium)的机构制订的字符编码系统,支持现今世界各种不同语言的书面文本的交换、处理及显示
用途:在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。
 

编码方法:在书写时在前面加上前缀“U+”,例如字母“A”的编码为 004116,所以“A”的编码书写为“U+0041”。

UTF-8 编码

UTF-8是Unicode 标准的编码字符集的字符编码方案之一。又称万国码
utf是把Unicode转做某种格式的意思。
 

 
 
 
 
posted @ 2016-09-22 18:19  爱唯八帝  阅读(180)  评论(0编辑  收藏  举报