名词解释:
编码字符集 coded character set
一组无歧义的规则,用以建立一个字符集和该字符集中的字符及其编码表示之间的对应关系,通常
也指按照这种规则确定的文字的有序集合。
示例:1.GB 18030 是我国制订的以汉字为主并包含多种我国少数民族文字(例如藏、蒙古、傣、彝、朝鲜、维吾
尔文等)的大型中文编码字符集标准,业界对该标准的全字符集的技术实现一般称作 GB18030 编码,该编
码包含单字节字符、双字节字符、四字节字符,其中双字节字符编码的技术实现又称作 GBK 编码。
2.EBCDIC 是大型主机的 8 比特单字节或双字节编码字符集。
注:GB 18030(含空格)指《信息技术 中文编码字符集》标准;GB18030(无空格)指具体字符编码。
[来源:ISO/IEC 8859-1:1998,4.5,有修改]
字库
font library
建立在计算机存储媒体上的字形数据集合。
注:1.字库在存储方式上一般分硬字库、软字库。硬字库指预烧录在只读存储器等介质中且不能再更改的字库,软
字库指以文件形式存储在光盘或者硬盘上的字库。
2.字库一般以ttf、otf、ttc等字体格式文件的形式存在。ttf指True Type Font字体文件,otf指Open Type Font
字体文件,ttc指True Type Collection字体文件。
3.4
人口信息字库
font library of population information
户籍管理部门针对人口信息(人名、地名等)数据数字化而定制的字库(3.3),采用GB/T 13000
编码。
3.5
用户自定义区
private use area;PUA
未在通用编码字符集中指定,由私有规则决定字符用途的一系列码点,使用三个编码区块:
U+E000~
U+F8FF、U+F0000~U+FFFFD、U+100000~U+10FFFD。
注:1.一般指人口信息字库中使用的PUA编码,在人口信息字库中,户籍管理部门对未收录进GB/T 13000但实际使
用的生僻汉字利用PUA编码予以补充,人口信息字库通过转换对照表提供编码转换解决方案。
2.人口信息字库中部分PUA编码字符陆续被通用编码字符集收录而拥有正式编码,会导致一个字符同时存在正
式编码和PUA编码,造成一字多码的情况。
[来源:GB 18030,3.3,有修改 ]
生僻字 rarely used Chinese characters
GB/T 13000编码区间(U+4E00~U+9FA5,20,902字)之外的汉字。
注:1993年发布的GB 13000收录了U+4E00~U+9FA5共20,902个汉字,1995年发布的《汉字内码扩展规范》(以下简
称GBK)含21,003个汉字(增加了101个汉字及偏旁部首,包括 “䶮”“䴖”“䦅”等52个汉字),现已被GB 18030
代替;由于GBK字符集内的20,902个汉字已能被国内外绝大部分技术产品和国内的应用系统所支持,而其他的
汉字往往会遇到问题,故一般认为在20,902个汉字之外的汉字为生僻字。
3.7
通用编码字符集 universal coded character set
国际通用的多八位编码字符集。
注:1.通用编码字符集(UCS)标准由国际标准化组织(ISO)与国际电工委员会(IEC)制订,编号为ISO/IEC 10646,
最新版本为ISO/IEC 10646:2020。我国现行GB/T 13000—2010采标自ISO/IEC 10646:2003。
2.统一码(Unicode)是由统一码联盟依据UCS制定的可以容纳世界上所有文字和符号的编码字符集,Unicode
比UCS额外定义了与字符有关的语义符号学内容。
3.UCS将中国、日本、韩国等国使用的汉字通称为中日韩统一表意文字(CJK)。
4.CJK按编码区块分为基本集(URO)、扩充A~G、兼容区,急用汉字会在各编码区块末尾增补(见附录A.2)。
5.UCS在技术实现上,使用UTF-8、UTF-16、UTF-32三种编码方式对字符进行编码。UTF-8是一种以一个或多个8
位为单元的编码方式;UTF-16是一种以一个或两个16位为单元的编码方式;UTF-32是一种以一个32位为单
元的编码方式。16位以2字节表示,32位以四字节表示。对于多个字节的排列顺序,如果第一个字节是整数
二进制中的最高位字节,最后一个字节是整数二进制中的最低位字节,则该字节序称为“大端”(Big Endian,
BE);如果第一个字节是整数二进制中的最低位字节,最后一个字节是整数二进制中的最高位字节,则该
字节序称为“小端”(Little Endian, LE)。UTF-16分UTF-16BE和UTF-16LE两种方式,UTF-32分UTF-32BE
和UTF-32LE两种方式。
6.本文件以U+XXXX或U+XXXXX表示UCS的一个码点或字符,如U+0000~U+FFFF称为基本多文种平面(BMP),
U+20000~U+2FFFF称为辅助表意文字平面。
4 缩略语
下列缩略语适用于本文件。
APP:移动应用程序(Mobile Application)
ASCII:美国信息交换标准代码(American Standard Code for Information Interchange)
ATM:自动柜员机(Automatic Teller Machine)
BOM:字节顺序标记(Byte Order Mark)
CCSID:编码字符集标识(Coded Character Set Identifier)
CJK:中日韩统一表意文字(China, Japan and Korea unified ideographs)
CTID:网络电子身份证(Cyber Trusted ID)
EBCDIC:扩展二进制编码十进制交换码(Extended Binary Coded Decimal Interchange Code)
FTP:文件传输协议(File Transfer Protocol)
GDI:图形设备接口(Graphics Device Interface)
HTML5:超文本标记语言第5版(HyperText Markup Language 5)
JDK:Java语言开发工具(Java Development Kit)
MFC:微软基础类库(Microsoft Foundation Classes)
OCR:光学字符识别(Optical Character Recognition)
PC:个人电脑(Personal Computer)
PUA:用户自定义区(Private Use Area)
SDK:软件开发工具(Software Development Kit)
UCS:通用编码字符集(Universal Coded character Set)
XML:可扩展标记语言(Extensible Markup Language)
5.3 生僻字处理分级
本文件将生僻字处理分为以下三个级别。
a)基础级:
——CJK 基本集和扩充 A,其中包含 52 个 GBK 双码字。
——《通用规范汉字表》全部汉字(含补字区、CJK 扩充 B~E 共 199 个字)。
——人口信息字库 PUA 编码部分对应的正式编码汉字(含 CJK 扩充 B~G)。
b)实用级(包含基础级,增加实际在用汉字):
——CJK 扩充 B~G 中已知的人名、地名在用汉字。
——人口信息字库 PUA 编码部分,虽有正式编码但仍在用 PUA 编码的汉字。
——人口信息字库 PUA 编码部分,没有正式编码只能使用 PUA 编码的汉字。
c)完整级:UCS 收录的全部 CJK 汉字,包含实用级。