字符集、字库

序:字符集、字符编码、字库

  字库  字符编码(生成一套字符集)  字形(PS、TrueType衍生众多字体[Arial、宋体、黑体])

  字符集(CHARACTER SET),或称字集,是指字符的集合;字符集种类较多,每个字符集包含的字符个数不同,常见的字符集名称:ASCII字符集、GB2312字符集、GB18030字符集、UNICODE字符集等。 1.1ASCII字符集 上 个世纪60年代,美国有关的标准化组织就出台了ASCII(AMERICAN STANDARD CODE FOR INFORMATION INTERCHANGE:美国信息交换标准码)编码,制定了一套字符编码,只能表示256个符号,主要用于显示现代英语和其他西欧语言。它是现今最通用的 单字节编码系统,并等同于国际标准ISO 10646。 1.2GB系列字符集(GB2312、GB13000、GBK、GB18030) GB2312 由原中国国家标准总局发布,共收录6763个简体汉字、682个符号,由于GB2312定义的字符集太小,容纳的汉字太少,在UNICODE出台之后,我 国立刻制定了完全兼容的GB13000标准,微软以技术上难以实现为理由,自己搞了一套扩展字符集,也就是GBK,在GB2312*础上定义了包括繁体字 在内的更多汉字,并在WINDOWS简体中文版中加以实施。到了二十世纪末,GBK字符集也不够用了,WINDOWS操作系统将内核改为支持 UNICODE字符集。UNICODE与GB系列字符集不兼容。于是我国政府于2000年3月17日发布的新的汉字编码国家标准GB18030,作为我国 所有非手持/嵌入式计算机系统的强制实施标准,GB18030收录了27484个汉字,不但与UNICODE3.0版本兼容,还与以前的GB字符编码标准 兼容。 

  字符集只是文字的集合,不一定适合网络传送、处理。计算机要准确的处理各种字符集文字, 有时须经编码(ENCODING)后才能应用。所谓字符编码是规定每个“字符”分别用一个字节还是多个字节存储,用哪些字节来存储,这个规定就叫做“编 码”。各个国家和地区在制定编码标准的时候,“字符集”和“编码”一般都是同时制定的。因此,平常我们所说的“字符集”,比如GB2312、GBK等,除 了有“字符的集合”这层含义外,同时也包含了“编码”的含义。对UNICODE字符集的编码称为UTF。目前通用的编码标准有UTF-16小尾序 (LITTLE ENDIAN)、UTF-16大尾序(BIG ENDIAN)和UTF-8变长编码。 

  字库就是字型库(FONT LIBRARY),其实计算机上显示的每个字符(不管它是哪种语言的),都是一个小的图案。字库就是把这些小的图案以图片的某种形式保存起来,需要显示的 时候还原出来就可以了。在WINDOWS操作系统里的字库存放在系统盘windows/fonts文件夹下,在linux操作系统中字库存放在这/usr /share/fonts/文件夹下。

 1 {
 2     "字库(Character Library)": {
 3         "编码(encoding)": {
 4             "ANSI": ["GB2312", "GBK", "BIG5"],
 5             "UNICODE": ["UTF-8", "UTF-16"],
 6             "CID": "厂商内码"
 7         },
 8         "字型(layout)": {
 9             "PS": {
10                 "TYPE0": ["Arial", "SIMSUN"],
11                 "TYPE1": ["Arial", "SIMSUN"]
12             },
13             "TrueType": ["宋体", "Arial", "黑体"],
14             "OpenType": {
15                 "PS-Outline": "PS系",
16                 "TrueType-Outline": "TrueType系"
17             }
18         }
19     }
20 }

第一节:字库概念:

一、GB字库:

  全称GB2312或GB2312-80是一个简体中文字符集的中国国家标准,全称为《信息交换用汉字编码字符集--*本集》,由中国国家标准总局发布,1981年5月1日实施。GB2312编码通行于大陆;新加坡等地也采用此编码。几乎所有的中文系统和国际化的软件都支持GB2312。
GB2312标准共收录6763个汉字, GB2312中对所收汉字进行了“分区”处理,每区含有94个汉字/符号。这种表示方式也称为区位码。
01-09区为特殊符号。16-55区为一级汉字共有汉字3755个,按拼音排序;56-87区为二级汉字共有汉字3008个,按部首/笔画排序;10-15区及88-94区则未有编码。

二、GBK字库:

  GBK全名为汉字内码扩展规范,英文名Chinese Internal Code Specification。K 即是“扩展”所对应的汉语拼音(KuoZhan)中“扩”字的声母。 1993年,Unicode1.1版本推出,收录了中国大陆、台湾、日本及韩国通用字符集的汉字,总共有20,912个。中国大陆订定了等同于Unicode 1.1版本的“GB13000.1-93”“信息技术 通用多八位编码字符集(UCS) 第一部分:体系结构与*本多文种平面”。
由于GB2312-80只收录了6763个汉字,有不少汉字,如部分于GB2312-80推出后才简化的汉字(如“啰”),部分人名用字(如中国前总理***的“*”字),台湾及香港使用的繁体字,日语及朝鲜语汉字等,并未有收录在内。 中国大陆于是利用了GB2312-80未有使用的编码空间,收录了所有出现于Unicode 1.1及GB13000.1-93之中的汉字,制定了GBK编码。微软在它出品的Windows 98中,即采用了GBK编码。在微软的系统内称为CP936字码表。
  根据西方资料,GBK最初是由微软对GB2312的扩展,也就是CP936,最初出现于Windows 95简体中文版中,由于Windows产品的流行在大陆广泛使用,国家有关部门将其作为技术规范。注意GBK并非国家正式标准,只是国家技术监督局标准化司、电子工业部科技与质量监督司发布的“技术规范指导性文件”。虽然GBK收录了所有Unicode 1.1及GB13000.1-93之中的汉字,但是编码方式与Unicode 1.1及GB13000.1-93不同。仅仅是GB2312到GB13000.1-93之间的过渡方案。
中国国家标准总局于2000年推出了GB18030-2000标准,以取代GBK。GB18030-2000除了保留了全部GBK编码的汉字外,还增加了大约一百个汉字及四位元组编码空间。请参看GB18030-2000

三、748字库:

  748字库是方正特有的字库,是在GB字库*础上又增加了一些常用字。748编码是指方正系统在长期应用过程中实施、制定的简体字库和繁体字库编码方式。简体兼容GB2312且有所扩展,共7156字;繁体兼容GB12345并扩展全部BIG-5汉字,共计14943字,去掉繁简共用字4954个,748编码的简繁体共收字16144个。此外,方正748编码还含有丰富的符号库。748编码仅用于方正电子出版系统。

四、True Type字库:

  True Type(简称TT)是由美国Apple公司和Microsoft公司联合提出的一种新型数字化字形描述技术。
TT是一种彩色数字函数描述字体轮廓外形的一套内容丰富的指令集合,这些指令中包括字型构造、颜色填充、数字描述函数、流程条件控制、栅格处理器(TT处理器)控制,附加提示信息控制等指令。
  TT采用几何学中的二次B样条曲线及直线来描述字体的外形轮廓,二次B样条曲线具有一阶连续性和正切连续性。抛物线可由二次B样条曲线来精确表示,更为复杂的字体外形可用B样长曲线的数学特性以数条相接的二次B样条曲线及直线来表示。描述TT字体的文件(内含TT字体描述信息、指令集、各种标记表格等)可能通用于MAC和PC平台。在Mac平台上,它以“Sfnt”资源的形式存放,在Windows平台上以TTF文件出现。为保证TT的跨平台兼容性,字体文件的数据格式采用Motorola式数据结构(高位在前,低位在后)存放。所有Intel 平台的TT解释器在执行之前,只要进行适当的预处理即可。Windows的TT解释器已包含在其GDI(图形设备接口)中,所以任何Windows支持的输出设备,都的TT解释器已包含在其GDI(图形设备接口)中,所以任何Windows支持的输出设备,都能用TT字体输出。
TT技术具有以下优势:
1)真正的所见即所得效果。
  由于TT支持几乎所有的输出设备,因而对于目标输出设备而言,无论系统的屏幕、激光打印机或激光照排机,所有在操作系统中安装了TT字体均能在输出设备上以指定的分辨率输出,所以多数排版类应用程序可以根据当前目标输出设备的分辨率等参数,来对页面进行精确的布局。
2)支持字体嵌入技术,保证文件的跨系统传递性。
  TT技术嵌入技术解决了跨系统间的文件和字体的一致性问题。在应用程序中,存盘的文件可将文件中使用的所有TT字体采用嵌入方式一并存入文件。使整个文件及其所使用的字体可方便地传递到其他计算机的同一系统中使用。字体嵌入技术保证了接收该文件的计算机即使未安装所传送文件使用的字体,也可通过装载随文件一同嵌入的TT字体来对文件进行保持原格式,使用原字体的打印和修改。
3)操作系统平台的兼容性。
  目前MAC和Windows平台均提供系统级的TT支持。所以在不同操作系统平台间的同名应用程序文件有跨平台兼容性。如在Mac机上的PageMaker可以使用在如果已安装了文件中所用的所有TT字体,则该文件在mac上产生的最终输出效果将与在Windows下的输出保持高度一致。
4)ABC字宽值。
  在TT字体中的每个字符都有其各自的字宽值,TT所用的字宽描述方法比传统的PS的T的TT解释器已包含在其GDI(图形设备接口)中,所以任何Windows支持的输出设备,都能用TT字体输出。
  在Windows 98中,系统使用得最多的就是*.TTF(True Type)轮廓字库文件,它既能显示也能打印,并且支持无极变倍,在任何情况下都不会出现锯齿问题。而*.FOT则是与*.TTF文件对应的字体资源文件,它是TTF字体文件的资源指针,指明了系统所使用的TTF文件的具体位置,而不用必须指定到FONTS文件夹中。*.FNT(矢量字库)和*.FON(显示字库)的应用范围都比较广泛。另外,那些使用过老版本的WPS的用户可能对*.PS文件还有一定的印象,*.PS实际上是DOS下轮廓字库的一种形式,其性能与*.TTF*本类似,采用某些特殊方法之后,我们甚至还可以实现在Windows中直接使用这些*.PS字库(*.PS1、*.PS2都是PS字库)。

五、Postscrīpt字库:

  也叫做Postscrīpt语言(简称PS),Postscrīpt是由Adobe公司在从前的一种面向三维图形的语言*础上重新整理制作,而于1985年开发的页面描述语言,它是桌面系统向照排设备输出的界面语言,专门为描述图象及文字而设计。作用是将页面上的图象文字,用数字公式的方法记录及在电脑上运行,最后通过Postscrīpt解码器,翻译成所需的输出,比如显示在屏幕上,或在打印运行,最后通过Postscrīpt解码器,翻译成所需的输出,比如显示在屏幕上,或在打印机、激光照排机上输出。
  Postscrīpt语言是国际上最流行的页面描述语言形式,它拥有大量,可以任意组合使用的图形算符,可以对文字,几何图形和外部输入的图形进行描述和处理,从理论上来说可以描述任意复杂的版面。其设计之成功使用这种页面描述语言成为许多厂家的选择。
  其丰富的图形功能、高效率地描述复杂的版面,吸引了众多出版系统的排版软件和图形软件对它的支持,几乎所有的印前输出设备都支持PS语言,而PS语言的成功,也使开放式的电子出版系统在国际上广泛流行。
  80年代末也成为事实的行业标准。经过多年经验的积累和许多PS产品的反馈,1990年推出PS2,在1990年进而推出PS3。

第二节:方正字库的分类

  北大方正是中国最早从事中文电脑研究和生产的单位,在国内有超过七成的中文印刷品使用方正字库。方正字库符合国家笔形规范,两次通过国家权威机构的鉴定,是政府部门、教育部门和新闻出版单位广泛使用的字库。 。方正字库有国际的TrueTyep和Postscrīpt格式,具有开放性和跨平台(Windows、Mac OS和Linux)输出特性。
由于方正字库产品种类较多,为了使您能更好地使用PSPNT,我们简要一下方正产品以及其在PSPNT中的应用。
  方正字库有True Type(又称显示字库或前端字库)和Postscrīpt(又称发排字库或后端字库)两种格式的字库,其中Postscrīpt又分Type0复合字库和CID字库两种。

一、True Type前端显示字库

  指装在排版主机上用于屏幕显示的字库(显示字库在飞腾、书版、WORD等软件上都可以使用,但非方正软件是不能使用748码字库的)。飞腾排版时使用的字库即为显示字库,常见的有748码、GB、GBK、BIG5、超大字库集等。
方正兰亭:
  可用于Windows95/2000平台上的标准TrueType字库,适用于Windows平台上的所有通用软件和方正软件。提供GB、BIG5和GBK三种编码。
方正妙手:
  可运用于MAC平台上的MAC TrueType字库,适用于MAC OS平台上所有通用软件,提供GB和BIG5两种编码。
  在PC平台上可以安装方正兰亭字库进行排版设计,在MAC平台上可以安装方正妙手字库进行排版设计。

二、Postscrīpt后端发排字库

  指安装后端输出设置(如照排机、打印机)中用于发排的字库,也称PS字库(这种字库安装在后端RIP软件上,如PSPPRO、PSPNT)。发排字库不能在屏幕上显示。方正发排字库按其编码的不同可以分为748、GB、GBK、BIG5、超大字库集等。
  方正发排字库与方正显示字库是一一对应的。
方正文韵:
  可以安装在PSPNT上的Postscrīpt Type0字库,从PC或MAC上直接安装,提供748、GB、BIG5以及GBK四种编码,当联接PSPNT的输出设备超过1450DPI时,不能使用方正文韵字库进行输出。
方正天舒:
  和方正文韵格式一样,但可以在1450DPI以上的设备上输出。在安装完方正文韵字库或方正天舒字库后,在PSPNT的目录下会有Fonts和Fzdata两个子目录。
方正CID字库:
  PSPNT的专用字库,提供748、GB、BIG5以及GBK四种编码格式,并提供一套超大字库。方正CID字库缺省安装在PSPNT的Font目录下。
  如果前端排版软件使用了方正兰亭和方正妙手字库时,PSPNT上没有安装相应兰亭字库,并在“重置”对话框选择“Windows系统的trueType字体‘选项,就可以输出。同样,也可以在PSPNT主机上安装汉仪TrueType字库进行输出。但要注意如果在前端排版软件(如QuarkXpress、FreeHand)中对字体做了变形效果,若TrueType字或CID字输出会报语法错误。
  在PSPNT中进行重置字库时,会有一个字库识别的顺序问题,当选择了“使用Windows系统的TrueType字体”选项时,首先Windows系统下的TrueType字,然后识别“字库路径”中指定的方正CID和Type1字库,如果安装了方正天舒、方正文韵以及汉仪Postscrīpt Type0等第三方字库,那么最后会识别第三方字库,即“PSPNT/Fonts”下的字库。当这三种格式的字库有重名时,使用最后识别出的字库进行输出。

三:飞腾中的字体分类

飞腾中的字体分类三类:系统英文、方正中文、系统中文。

一、系统英文:

  指windowsfonts(Win2000是在winntfonts)目录下的英文字体。系统英文的特点简单的说就是所见即所得,它可用于飞腾、书版、WORD、Photoshop等软件。

二、方正中文:

  方正公司按自己的标准开发的字体,也称748编码字体,如“报宋(方正)”就是方正中文。方正中文的特点是:它只适用于方正软件,在非方正软件里是看不到的,更不用说使用了。
  方正中文的另一特点是:有些字体能真实显示(这种字体需要有与之对应的GBK字体,如“报宋(方正),如果有方正报宋_GBK字库对之对应的话,那它是能真实显示的,即所见即所得),而有些字体是不能真实显示的,只有生成PS文件,通过RIP软件输出后才能知道它具体“是什么模样”。
  很多朋友就问了:既然方正中文不能应用于其它软件,有些字体又不能真实显示,用它干嘛?
  其实方正软件和其它排版软件最大的区别之一就是方正有自己的字库,而且方正字库的精度是其它字库不具备的。
  举个简单例子来说,有两行文字,都是“中华人民共和国”,都用5号字,其中一行你选择“细圆(方正)”,另一个选择“方正细圆”,然后生成PS文件,用PSP31输出,你会看到什么?试试吧。

三、系统中文:

  指符合国家统一标准的中文字体,即windowsfonts(Win2000是在winntfonts)目录下的中文字体。系统中文包括Windows自带的字体、方正兰亭(即GB编码的字体)、GBK字体(书版9或10带有46款,飞腾只有9款)、其它厂商的字体(如汉仪、文鼎、长城、经典等)。系统中文的特点是:所见即所得,几乎所有的平面设计软件及排版软件都支持系统中文。

第三节:字库问答

1、问:方正字库为什么分有前端字库和后端字库,它们各起的作用是什么?
答:前端字库指的是显示字库,当您在排软件中使用这些字体时,可以显示出字体的实际效果;后端字库是给输出软件用的,也就是我们常说的CID字库,如果排版软件在生成PS文件时未下载字体,发排软件输出时会调用CID字库,后端字库要比前端字库输出的质量好。
2、问:如何配置好前端和后端字库,它们之间的关系对排版的影响?
答:排版软件中的字体设置是根据发排软件中的字体情况来设置的,如果后端发排软件中有的字库在排版软件中不用设置下载,反之则需要下载。
4、问:GB字库和GBK字库又有何区别如何应用?
答:GBK字库比GB字库包容的汉字要多的多,GBK字库达到了21003个字,这样大大减少了补字
5、问:在排版、打印、发排它们如何配合使用?如何合理安装?
答:前面已经提到了,在排版软件中的字体设置,是根据后端发排软件的情况来设置的。前端是TUREPYPE字体,后端是CID字体。在方正软件中,如果前端用方正字体那么生成PS文件时就不用将字体下载(转曲),而是将字体信息写在PS文件中,后端RIP输出时直接读取这些字体信息,然后用RIP安装的对应的CID字体输出。这样的好处是PS文件生成速度快,体积小,RIP解释速度快,字的输出质量明显高于下载(转曲)。配置字体请看方正区顶置的字体攻略。排版软件除方正用748字库及TURETYPE字体外,其它厂商都支持TURETYPE字体。方正字体的安装都要密码,CID字体还要对应RIP号。
6、问:是不是RIP的字库安装的越多,飞腾后端字库就不用下载了,它生成的PS文件就小了不少? CID2.0和CID5.0字库区别在哪?是不是字体的数量多了?
答:您说的没错。CID5.0主要是增加了字体。
7、问:在RIP软件中能不能安装如汉仪、文鼎字库?
答:能。得买相应的ps字库。
8、问:在飞腾设置字体时,有报宋(方正)和方正报宋,这两个字体一样吗?都属于什么字体?为什么设置报宋(方正)、仿宋(方正)、楷体(方正)和黑体(方正)这四个字体时可以显示,而其它带括号的方正不能显示。而方正××打头的字体全都可以显示?
答:报宋(方正):是方正748字库 方正报宋简体:是GB字库 。方正报宋_GBK:是GBK字库 。将您选择报宋(方正)、黑体(方正)……等9款可以显示,因为它调用的是方正XXX_GBK的显示字库,而飞腾只提供的9款GBK显示字库,所以当您选择综艺(方正)……等字体时是以报宋方式来显示的。
9、问:那么为什么“(方正)”大部分不能显示,而方正××能显示。 不能显示的还在字体列表里干什么?
答:不能显示的,就必须在后端有CID字库,这样才能保证它正确输出。 如果后端没有CID字库,就会报错字。而此时,你如果选择下载这体的话,下载的只是显示的字体,也是不正确的。 而能显示的那些字体,就可以下载字体,这样后端没有CID也能正确输出。 当然了,如果后端有CID的话,最好不选择下载,这样理论上输出的质量会更好。
10、问:还有什么方法用RIP输出没有CID字库的文件,比如含有汉仪、文鼎字体的文件?
答:那就只能在生成ps的时候,选择下载字体
posted @ 2018-08-10 10:33  光何  阅读(1323)  评论(0编辑  收藏  举报