信息处理用现代汉语分词规范
1.主题内容与适用范围
1.1主题内容
本规范规定了现代汉语的分词原则,以满足信息处理的需要。它对汉语信息处理的规范
化,对各种汉语信息处理系统之间的兼容性有重要的作用。
1.2适用范围
本规范适用于汉语信息处理各领域,其它行业和有关学科可以参考使用。汉语信息处理
各领域可以根据其专门需求,进一步补充和细化本规范的规定。
2.引用标准
汉语信息处理词汇GB 12200
3术语
以卜术语引自GB 12200。
3.1汉语信息处理
用计算机对汉语的音、形、义等信息进行的处理。
3.2词
最小的能独立运用的语言单位。
3.3词组
由两个或两个以上的词,按一定的语法规则组成,表达一定意义的语言单位。
3.4分词单位
汉语信息处理使用的、具有确定的语义或语法功能的基本单位。它包括本规范的规则限
定的词或词组。
3.5汉语分词
从信息处理需要出发,按照特定的规范,对汉语按分词单位进行划分的过程。
4.概述
本规范以信息处理用为目的,根据现代汉语的特点及规律,规定现代汉语的分词原则。
本规范用下划线“___”作为分词单位标记。
4.1空格或标点符号是计算机中分词单位的分隔标记。作为分隔标记的标点符号有:句
号、逗号、顿号、分号、冒号、问号、叹号、引号、括号、破折号、省略号、书名号、间隔
号、连接号及符号“/”等。
4.2二字或三字词,以及结合紧密、使用稳定的二字或三字词组,一律为分词单位。例
如:
发展 可爱 红旗
对不起 自行车 青霉素
4.3四字成语一律为分词单位。例如:
胸有成竹 欣欣向荣
四字词或结合紧密、使用稳定的四字词组,一律为分词单位。例如:
社会主义 春夏秋冬 由此可见
4.4五字和五字以上的谚语、格言等,分开后如不违背原有组合的意义,应予切分。例
如:
时间 就 是 生命
失败 是 成功 之 母
人 心 齐 , 泰山 移
5.1.1.7各类专业的基本术语为分词单位。例如:
加速度 中央处理器
5.1.1.8方位词应予单独切分。例如:
桌子 上 长江 以北
5.1.1.9除“人们”之外,仅表示前一个名词性分词单位复数的“们”单独切分。例如:
朋友 们 学生 们
但是“哥儿们 爷儿们”等是分词单位
5.1.1.1时间名词或词组的分词规则如下:
a.一年的十二个月份以及每周的七天,一律为分词单位。例如:
五月 元月 3月 星期日 礼拜三
b.“年、日、时、分、秒”分别为分词单位。例如:
1988 年 15日 11 时 42 分 8 秒
c.“前、后、上、下、大前、大后”等直接与时间名词或量词组合时,它们为一个分
词单位。例如:
前天 后年 上星期 下月 大前天 大后年
d.“初”加十以内的数字一律为分词单位。例如:
初一 初二
5.1.2专有名词
5.1.2.1人名、称谓等处理如下:
a.汉族人名的姓和名分别单独切分。例如:
张 胜利 欧阳 海
b.其他国家、其他民族的人名按其习惯形式切分。例如:
卡尔.马克思 牛顿 小林多喜二 才旦卓玛
c.带职务、职称的称呼一律切分。例如;
张 教授 王 部长 李师傅
d.简称、尊称等为分词单位。例如:
老张 小李 郭老 陈总
e.带排行的亲属称谓一律切分。例如:
三叔 大 女儿
5.1.2.2民族名、地名中的“族、省、市、州、县、乡、区、江、河、山”等应单独切
分。但包括“族、省、市、州、县、乡、区、江、河、山”等只有两个字的民族名、地名,
则不予切分。例如:
专名部分不能单独存在而保持原有意义的地名,不予切分.