关于字符集

从本质上来说,计算机只能识别二进制代码。因此不论是计算机程序还是其处理的数据,最终都必须转换成二进制代码,计算机才能认识。为了使计算机不仅能做科学计算,也能处理文字信息,人民想出了给每个文字符号编码以便于计算机识别处理的办法,这就是计算机字符集的由来。

一、字符集概述

  1、简单的说,字符集就是一套文字符号及其编码、比较规则的集合。

  2、上个世纪60年代初期,美国标准化组织ANSI发布了第一个计算机字符集——ASCII(American Standard Code for Information Interchange),后来进一步变成了国际标准ISO-646。这个字符集采用7位编码,定义了包括大小写英文字母、阿拉伯数字和标点符号,以及33个控制符号等。虽然现在看来这个美式的字符集和简单,包括的符号也很少,但知道具体它依然是计算机世界里奠基性的标准,其后制定的各种字符集基本都兼容ASCII字符集。

  3、自ASCII之后,为了处理不同的文字,各大计算机公司、各国政府、表转化组织等先后发明了几百种字符集,如人们熟悉的ISO-8859系列、GB2312-80、GBK、BIG5等。这些五花八门的字符集,从收录的字符到编码规则各不相同,给计算机软件开发和移植带来了很大困难。一个软件要在不同的国家or地区发布,必须进行本地化开发!基于这个原因,统一字符编码,称为上世纪80年代计算机行业的迫切需要和普遍共识。

 

二、Unicode简述

  为了统一字符编码,国际标准化组织ISO(International Organization for Standardization)的一些成员国于1984年发起制定新的国际字符集标准,以容纳全世界各种语言文字和符号。这个标准叫做“Universal Multiple-Octet Coded Character Set”,简称UCS,标准编号则定为ISO-10646。

   ISO-10646发布以后,遭到了部分美国计算机公司的反对。1988年Xerox公司体育在制定新的以16位编码的统一字符集Unicode,并联合Apple、IBM、DEC、Sun、Microsoft、Novell等公司成立Unicode协会(The Unicode Consortium),并成立Unicode技术委员会(Unicode Technical Committee),专门负责Unicode文字的手机、整理和编码,并于1991年推出了Unicode 1.0。

posted @ 2017-02-27 14:28  SYang_Summer  阅读(219)  评论(0编辑  收藏  举报