搜索引擎编码--收集~

国家标准GB18030-2000《信息交换用汉字编码字符集基本集的扩充》是我国继GB2312-1980和GB13000-1993之后最重要的汉字编码标准，是未来我国计算机系统必须遵循的基础性标准之一。为保证该标准顺利贯彻执行，国家质监总局将在9月1日起首先对影响广泛的计算机操作系统进行执法检查，凡不符合该标准的产品，视为不合格产品。为此，全国信息技术标准化技术委员会将根据有关标准和规范，组织对市场上主要的操作系统产品进行标准符合性检测。检测要求及标准的制定 1. 须经检测的产品范围 GB18030是信息产品必须遵循的基础性标准，考虑到一些客观实际，采取从基础抓起，分步实施的策略。本次对必须经检测产品的范围规定如下： ● 个人计算机操作系统产品须经标准符合性测试，其他产品暂不做要求； ● 凡是在GB 18030发布日期(2000年3月17日)前正式发布或出厂的产品，视为历史性产品，不在GB 18030的监督检查范围之内； ● 在2000年3月17日后对历史性产品的更新版本或升级版本作为新产品对待； ● 凡是在GB 18030实施过渡期间(即2000年3月17日至2001年8月31日)正式发布或出厂的产品，应符合GB 18030相关要求。不符合标准要求的产品应采用补救措施，以达到符合标准的相关要求。补救措施应得到全国信息技术标准化技术委员会的认可； ● 凡是在GB 18030过渡期(即2001年8月31日)后正式发布或出厂的产品，必须符合GB 18030相关要求。 2. 关于标准符合性测试为了配合GB 18030的实施，信息处理产品标准符合性检测中心(设在信息产业部电子工业标准化研究所)开展了GB 18030各项测试的准备工作，并且对国内外多个产品进行了测试。为了指导标准实现者沿着正确的方向尽快在产品上实现GB 18030，信息处理产品标准符合性检测中心于2000年11月提出了《GB 18030标准符合性检测规范》。《检测规范》对检测使用的软件和硬件环境、测试要求、测试步骤、适用范围等做了明确而详细的规定。检测一般要求如下： ● 字汇完整性：产品的字汇范围应是国家标准GB 18030中所有给出字形的字符； ● 体系正确性：产品必须能够正确识别和处理按照国家标准GB 18030进行编码的文本文件。需要说明的是：检测范围不包括嵌入系统，如PDA、手机；单字节货币符号的编码不在检测范围之内；操作系统为近期检查重点。 3. 对少数民族文字的支持 ● 产品应具备支持GB 18030所规定我国少数民族文字编码空间的能力； ● 销往我国少数民族地区的产品，鼓励安装当地少数民族字体和输入方法。 4. 按国际惯例制定标准 GB 18030收录了27484个汉字，总编码空间超过150万个码位，为解决人名、地名用字问题提供了方案，为汉字研究、古籍整理等领域提供了统一的信息平台基础。目前，我国大部分计算机系统仍然采用GB 2312编码。GB 18030与GB 2312一脉相承，较好地解决了旧系统向新系统的转换问题，并且改造成本较小。从我国信息技术和信息产业发展的角度出发，考虑到解决我国用户的需要及解决现有系统的兼容性和对多种操作系统的支持，采用GB 18030是我国目前较好的选择，而GB 13000.1更适用于未来国际间的信息交换。考虑到GB 18030和GB 13000的兼容问题，标准起草组编制了GB 18030与GB 13000.1的代码映射表，使得两个编码体系可以自由转换。同时，还开发了GB 18030基本点阵字型库。世界许多国家和地区从方便本国和民族应用的角度出发，制定了相应的编码标准和内码体系，如日本的JIS X 0208和JIS X 0212，韩国的KS C 5601和KS C 5657等，这是国际上采用的通行惯例。制定GB 18030同样符合国际惯例，它全面兼容GB 2312，在字汇上兼容GB 13000.1，可以充分利用已有资源，保证不同系统间的兼容性，最大限度地共享资源，为我国软件产业留有巨大的发展空间。可以相信，GB 18030的实施将有利于国产软件的发展并形成规模，使我国的中文信息技术再上一个台阶。从沿革看新标准 1980年我国颁布了第一个汉字编码字符集标准，即GB 2312-80《信息交换用汉字编码字符集基本集》。该标准共收了6763个汉字及常用符号，奠定了中文信息处理的基础。随着国际间的交流与合作的扩大，信息处理应用对字符集提出了多文种、大字量、多用途的要求。1993年国际标准化组织发布了ISO/IEC 10646-1《信息技术通用多八位编码字符集第一部分体系结构与基本多文种平面》。我国等同采用此标准制定了GB 13000.1-1993。该标准采用了全新的多文种编码体系，收录了中、日、韩20902个汉字，是编码体系未来发展方向。由于其新的编码体系与现有多数操作系统和外部设备不兼容，所以它的实现仍需要有一个过程，目前还不能完全解决我国当前应用的迫切需要。考虑到GB 13000的完全实现有待时日，以及GB 2312编码体系的延续性和现有资源和系统的有效利用与过渡，我们选择了在GB 2312(GB 2311)的基础上进行扩充，并且在字汇上与GB 13000.1兼容的方案，研制一个新的标准--汉字编码基本集的扩充，进而完善GB 2312，以满足我国邮政、户政、金融、地理信息系统等应用的迫切需要。此项目业已列入一九九八年国家标准制定计划。1998年10月，由信息产业部电子四所、北京大学计算机技术研究所、北大方正集团、新天地公司、四通新世纪公司、中科院软件所、长城软件公司、中软总公司、金山软件公司和联想公司的技术人员组成标准起草组。在标准研制过程中，全国信息技术标准化技术委员会多次召集标准起草组和知名公司对标准草案进行充分地研究论证，并且特邀了微软公司、惠普公司、Sun公司和IBM公司等参加，广泛征求意见。标准起草组经过反复斟酌和验证，提出了标准制定原则--与GB 2312信息处理交换码所对应的事实上的内码标准兼容，在字汇上支持GB 13000.1的全部中、日、韩(CJK)统一汉字字符和全部CJK扩充A的字符，并且确定了编码体系和27484个汉字，形成兼容性、扩展性、前瞻性兼备的方案。信息产业部和原国家质量技术监督局于2000年3月17日联合发布了该标准，即GB 18030-2000《信息技术信息交换用汉字编码字符集基本集的扩充》。该标准作为国家强制性标准自发布之日起实施，过渡期到2001年8月31日止。期间，全国信标委曾制定和发布《汉字扩展规范 GBK 1.0》，并在MS Windows 9x/Me/NT/2000、IBM OS/2的系统中广泛应用。GB18030是国家标准，在技术上是GBK的超集，并与其兼容，因此，GBK将结束其历史使命。标准的技术要点 1. 总体结构标准采用单字节、双字节和四字节三种方式对字符编码。单字节部分采用GB/T 11383的编码结构与规则，使用0×00至0×7F码位(对应于ASCII码的相应码位)。双字节部分，首字节码位从0×81至0×FE，尾字节码位分别是0×40至0×7E和0×80至0×FE。四字节部分采用GB/T 11383未采用的0×30到0×39作为对双字节编码扩充的后缀，这样扩充的四字节编码，其范围为0×81308130到0×FE39FE39。其中第一、三个字节编码码位均为0×81至0×FE，第二、四个字节编码码位均为0×30 至0×39。码位总体结构见下图。码位总体结构图 2. 收录的字符双字节部分收录内容主要包括GB13000.1全部CJK汉字20902个、有关标点符号、表意文字描述符13个、增补的汉字和部首/构件80个、双字节编码的欧元符号等。四字节部分收录了上述双字节字符之外的，包括CJK统一汉字扩充A在内的GB 13000.1中的全部字符。 GB18030编码空间约为160万码位，目前已编码的字符约2.6万。随着我国汉字整理和编码研究工作的不断深入，以及国际标准ISO/IEC 10646的不断发展，GB18030所收录的字符将在新版本中增加。 Unicode和GB18030-2000之间的关系如下：00385A U+9FA6-D7FF GB+82358F33-8336C738001BBE U+0452-200F GB+8130D330-8136A5310010C7 U+E865-F92B GB+8336D030-8430853400083E U+2643-2E80 GB+8137A839-8138FD38000406 U+FA2A-FE2F GB+84309C38-84318537000375 U+3CE1-4055 GB+8231D438-8232AF320002FD U+361B-3917 GB+8230A633-8230F2370002BF U+49B8-4C76 GB+8234A131-8234E7330001D7 U+4160-4336 GB+8232C937-8232F8370001B9 U+478E-4946 GB+8233E838-82349638000175 U+44D7-464B GB+8233A339-8233C93100001A U+FFE6-FFFF GB+8431A234-8431A439

======================================================================

申请专利号	200510127958.8	专利申请日	2005.12.09
名称	搜索引擎中处理含Unicode四字节编码东亚表意文字异体字转换的方法	公开（公告）号	CN1786956
公开（公告）日	2006.06.14	颁证日
优先权		申请（专利权）	王宏源
地址	100020北京市朝阳区朝外小庄新街大院12号楼901室	发明（设计）人	冯建康;王宏源;赵锋
国际申请		国际公布
专利代理机构		代理人
摘要
本发明公开了一种搜索引擎中处理含Unicode四字节编码东亚表意文字异体字转换的方法。该方法根据汉字异体字字表，采用分层匹配的思想，实现了在搜索引擎中，各种东亚中文文字字体之间、当前常用文字和古文之间、不同版古文字体之间的异体字之间的匹配检索。采用此方法，在检索时只要输入异体字中的任意一种，信息中包含其它异体字的信息都会被命中。本发明很好的解决了当前各种东亚中文文字字体之间、当前常用文字和古文之间、不同版古文字体之间的转换问题，使得搜索引擎更能准确的检索出用户需要的信息，而不必考虑各种异体字之间的转换问题。
主权项
1、一种搜索引擎中处理含Unicode四字节编码东亚表意文字异体字转换的方法。该方法根据汉字异体字字表，采用分层匹配的思想，实现了在搜索引擎中异体字之间的匹配检索。这些异体字包括同一个字在各种东亚表意文字里的不同形体，在各种版本的古文中的不同形体。在检索时只要输入异体字中的任意一种，信息中包含其它异体字的信息都会被命中。

=========================================================================

当然GOOGLE的内部编码机制用的是UTF，它接受任何页面编码的页面~

posted on 2007-05-08 16:11 riky 阅读(1428) 评论(0) 编辑收藏举报

搜索引擎编码--收集~

搜索

常用链接

最新随笔

随笔分类 (144)

随笔档案 (186)

相册 (2)

my faverate

阅读排行榜

评论排行榜

推荐排行榜

最新评论